语音技术近期迎来密集更新,多模态与实时交互成为焦点。微软Edge浏览器集成Aion-1.0-Instruct模型与翻译API,支持超过145种语言的语音处理,进一步降低多语言场景的门槛。与此同时,Codex展示了实时转录会议并回答问题的能力,通过语音交互直接提供信息总结,体现了语音模型从单纯识别向理解与生成融合的演进。
在语音合成方面,MiniMax发布Speech 2.8模型,并亮相戛纳电影节与Storyverse合作创新电影配音,展示AI语音在创意产业的应用潜力;Together AI新增600+声音并集成该模型,服务生态扩展迅速。另一方向,ElevenLabs推出Speech Engine,允许开发者通过一句话将聊天智能体转为语音智能体,简化语音对话系统的构建。国内方面,阶跃星辰的StepAudio 2.5 TTS登顶中文语音合成榜,表明中文语音模型竞争日趋激烈。
当前焦点在于语音模型的多语言能力、实时性以及与视觉、文本等模态的融合。未来需观察语音模型在不同场景下的准确率、自然度以及隐私保护问题,同时关注开源生态与商业应用的平衡。