StepFun 发布 StepAudio 2.5 Realtime：端到端语音模型，支持角色扮演 RLHF

精选理由

做语音交互或角色扮演应用的开发者，终于有了一个能理解语气和情绪的端到端模型，建议直接试 API。

AI 摘要

上海 AI 实验室 StepFun 于 2026 年 5 月发布 StepAudio 2.5 Realtime，这是一款端到端的实时语音大模型，支持中英文，通过 WebSocket API 连接。该模型在 2026 年 4 月的五项基准测试中均排名第一，包括 80.41 的人类评估分数和 82.18 的副语言理解分数。其特色在于角色扮演特定的 RLHF 训练和副语言理解能力，允许用户自定义角色风格。这标志着语音 AI 在情感和角色模拟方面取得了重要进展。

AI 翻译 · 中文

marktechpostStepFun, the Shanghai-based AI lab, released StepAudio 2.5 Realtime in May 2026 — an end-to-end real-time speech large language model with fully customizable persona capabilities. The model connects via a WebSocket API, …

阅读原文