近期语音模型领域进入实时性与多模态融合的加速期,多个重磅模型发布,标志着从「能听会说」向「实时理解与交互」的质变。
- 主要进展:
- OpenAI 发布 gpt-realtime-translate 实时翻译模型:支持 70+ 输入语言,依托 GPT-4o 的语音到语音架构,实现低延迟翻译,进一步拓展了语音模型的应用边界。(来源)
- 阶跃星辰发布 StepAudio 2.5 Realtime:端到端语音模型,专为角色扮演场景优化,采用 RLHF 对齐,能够理解语调、音色等副语言信息,完成更自然的交互。(来源)
- 阿里通义千问推出 Qwen3.5-LiveTranslate:实时语音翻译模型,延迟低至 2.8 秒,支持多语言,专注于对流式语音的快速处理。(来源)
- gpt-realtime-2 语音模型升级:智能度大幅提升,反应更自然、上下文理解更强,OpenAI 还邀请开发者展示实时语音作品,推动社区应用。(来源1)(来源2)
当前焦点/未来观察:
当前焦点在于语音模型的「实时性」和「拟人化」:端到端架构取代级联系统,延迟降至秒级甚至毫秒级;同时开始重视副语言信息(情绪、语调、风格)的理解与生成,在客服、教育、娱乐、翻译等场景中逐步落地。未来观察点包括:模型的跨语言泛化能力、多轮对话中的长上下文记忆、以及如何克服口音、噪声等现实干扰。此外,语音模型与文本、图像的多模态融合将成为下一阶段竞争的关键。