语音翻译技术近期迎来突破性进展,从实时流式翻译到硬件集成,均展现出商用化加速的趋势。Google 推出的 Gemini 3.5 Live Translate 支持 70+ 语言实时语音翻译,能在说话人未说完时即开始输出译文,大幅提升交互流畅性(Google Gemini 3.5 Live Translate 发布)。该功能基于 Gemini 3.5 的多模态理解能力,克服了传统方案依赖逐句处理的延迟问题(Google 发布 Gemini 3.5 Live Translate)。与此同时,科大讯飞推出集成 122 种语言翻译功能的 AI 眼镜,以 4299 元价格切入消费级市场,但实际体验中的准确性和功耗仍是挑战(科大讯飞 AI 眼镜发布)。在学术前沿,Streaming SpeechLLM 通过端到端流式架构将翻译延迟压缩至 1-2 秒,进一步逼近同声传译水平(Streaming SpeechLLM)。当前焦点在于实时翻译的准确率与多模态场景适配(如噪声环境、多语种混合),而未来观察点包括边缘设备部署、隐私保护以及能否真正替代人工同传。
№语音翻译·general
语音翻译
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-10
- 累计提及
- 5
§ 01综述
§ 02相关报道05 条在档
§ 03邻近话题