06:55marktechpost@Michal Sutter精选上海 AI 实验室 StepFun 于 2026 年 5 月发布 StepAudio 2.5 Realtime,这是一款端到端的实时语音大模型,支持中英文,通过 WebSocket API 连接。该模型在 2026 年 4 月的五项基准测试中均排名第一,包括 80.41 的人类评估分数和 82.18 的副语言理解分数。其特色在于角色扮演特定的 RLHF 训练和副语言理解能力,允许用户自定义角色风格。这标志着语音 AI 在情感和角色模拟方面取得了重要进展。AI模型语音模型角色扮演RLHF副语言理解StepFun推荐理由:做语音交互或角色扮演应用的开发者,终于有了一个能理解语气和情绪的端到端模型,建议直接试 API。原文