近期 Google 推出 Gemini 3.5 Live Translate,这是一项基于 Gemini 3.5 Flash 模型的全新实时语音翻译功能,支持超过 70 种语言和 2000 余种语言对,旨在实现自然流畅的跨语言交流。与传统的逐句翻译不同,该系统能在说话人尚未说完时就开始输出译文,大幅缩短等待时间,提升对话连贯性。
- 核心进展:
- Google Gemini 3.5 Live Translate 实时翻译70+语言 报道了该功能的多语言覆盖和实时特性,强调其低延迟表现。
- Gemini 3.5 Live Translate 实现自然流畅的实时语音翻译 从技术角度解读了模型如何实现“边说边译”的流畅体验,并指出这得益于 Gemini 3.5 Flash 的优化架构。
- Google 发布 LiteRT 框架,助力移动端 NPU 高效运行 AI 虽非直接关于 Meet,但体现了 Google 在端侧 AI 推理上的布局,或为 Live Translate 等实时功能提供设备端支持。
当前焦点集中在实时翻译的准确性和自然度上,尤其是“未说完即翻译”的特性是否能在复杂口音、背景噪音下保持可靠。此外,该功能是否会整合进现有 Google 产品(如 Google Meet、翻译应用)尚待确认。未来值得观察的是,此类实时翻译模型如何平衡速度与质量,以及是否有望扩展到更多语种或视频会议场景。