AI模型精选

StepFun 发布 StepAudio 2.5 Realtime:端到端语音模型,支持角色扮演 RLHF

StepFun Releases StepAudio 2.5 Realtime: An End-to-End Voice Model with Roleplay-Specific RLHF and Paralinguistic Comprehension

精选理由

做语音交互或角色扮演应用的开发者,终于有了一个能理解语气和情绪的端到端模型,建议直接试 API。

AI 摘要

上海 AI 实验室 StepFun 于 2026 年 5 月发布 StepAudio 2.5 Realtime,这是一款端到端的实时语音大模型,支持中英文,通过 WebSocket API 连接。该模型在 2026 年 4 月的五项基准测试中均排名第一,包括 80.41 的人类评估分数和 82.18 的副语言理解分数。其特色在于角色扮演特定的 RLHF 训练和副语言理解能力,允许用户自定义角色风格。这标志着语音 AI 在情感和角色模拟方面取得了重要进展。

AI 翻译 · 中文

上海 AI 实验室 StepFun 于 2026 年 5 月发布 StepAudio 2.5 Realtime,这是一款端到端的实时语音大模型,支持中英文,通过 WebSocket API 连接。该模型在 2026 年 4 月的五项基准测试中均排名第一,包括 80.41 的人类评估分数和 82.18 的副语言理解分数。其特色在于角色扮演特定的 RLHF 训练和副语言理解能力,允许用户自定义角色风格。这标志着语音 AI 在情感和角色模拟方面取得了重要进展。

marktechpostStepFun, the Shanghai-based AI lab, released StepAudio 2.5 Realtime in May 2026 — an end-to-end real-time speech large language model with fully customizable persona capabilities. The model connects via a WebSocket API,