实时语音翻译领域迎来重大突破,Google 和 OpenAI 几乎同时推出了支持70+语言的实时翻译系统,标志着机器翻译从文字批处理向语音同步交互的转折。
Google 的 Gemini 3.5 Live Translate 实现了说话人尚未说完即可开始翻译的流式处理,支持70多种语言和2000多种语言对,延迟极低,语音自然流畅(Google DeepMind Blog,IT之家)。OpenAI 的 gpt-realtime-translate 同样支持70余种输入语言,并可在单一 API 中处理转录、翻译和语音生成(Greg Brockman)。此外,Cohere 的 Command A+ 模型在机器翻译基准测试中超越了多个开源和专有系统(Cohere)。
当前焦点集中在实时翻译的质量与实用性:用户反馈显示,Gemini 3.5 在处理多说话人、不同口音和背景噪音时表现自然(Decoder,Philipp Schmid)。未来观察点包括:技术如何进一步降低延迟、扩大语言覆盖(尤其是低资源语言),以及 AI 翻译在情感和文化传递上的局限性——如用 ChatGPT 翻译祖父遗物时,用户感受到工具虽强大但缺失了人情温度(Marc Andreessen)。