语音翻译 · AI 话题观测

§ 01综述

语音翻译技术近期迎来突破性进展，从实时流式翻译到硬件集成，均展现出商用化加速的趋势。Google 推出的 Gemini 3.5 Live Translate 支持 70+ 语言实时语音翻译，能在说话人未说完时即开始输出译文，大幅提升交互流畅性（Google Gemini 3.5 Live Translate 发布）。该功能基于 Gemini 3.5 的多模态理解能力，克服了传统方案依赖逐句处理的延迟问题（Google 发布 Gemini 3.5 Live Translate）。与此同时，科大讯飞推出集成 122 种语言翻译功能的 AI 眼镜，以 4299 元价格切入消费级市场，但实际体验中的准确性和功耗仍是挑战（科大讯飞 AI 眼镜发布）。在学术前沿，Streaming SpeechLLM 通过端到端流式架构将翻译延迟压缩至 1-2 秒，进一步逼近同声传译水平（Streaming SpeechLLM）。当前焦点在于实时翻译的准确率与多模态场景适配（如噪声环境、多语种混合），而未来观察点包括边缘设备部署、隐私保护以及能否真正替代人工同传。

§ 02相关报道05 条在档

§ 03邻近话题