04:06marktechpost@Asif Razzaq精选Gradium推出两个实时语音翻译模型stt-translate和s2s-translate,覆盖英语、法语、德语、西班牙语、葡萄牙语共20个语言对。模型采用双阶段架构,将传统三模型级联简化为两个:单次转录+翻译后连接Gradium TTS,通过单个双工WebSocket运行。据Gradium报告,该模型在准确性和延迟上优于gpt-realtime-translate和gemini-3.5-live-translate。模型还支持输出语音选择和语音克隆功能。AI模型Gradiumstt-translates2s-translate语音翻译实时翻译1 个信源在谈推荐理由:Gradium发了两个实时语音翻译模型,准确率和速度都超过了GPT的实时翻译,还能选声音和克隆,做多语言交流很实用。原文
05:36Google AI Developers@googleaidevs精选Google 通过 Gemini Live API 推出 Gemini 3.5 Live Translate 功能,可为应用添加近乎实时的语音翻译。该功能采用语音到语音流式传输(S2ST),支持连续翻译广播音频并同步生成转录文本。演示中用户能用母语收听全球广播节目,实现无缝的跨语言直播体验。AI产品Gemini 3.5Gemini Live APIGoogle语音翻译实时翻译推荐理由:谷歌 API 上新实时语音翻译原文
03:08Jeff Dean@JeffDeanGoogle 在语音翻译领域长期投入,最新推出 Gemini 3.5 Live Translate 模型,支持超过 70 种语言的语音到语音实时翻译。该模型旨在让跨语言对话更自然,已集成到 Google Translate 和 Google AI Studio 的 Live API 中。合作伙伴 Grab 正在利用该技术帮助司机与乘客沟通,展示了实际应用场景。这是 Google 在语音翻译领域的最新进展,有望提升日常应用中的多语言交流体验。AI产品语音翻译Gemini 3.5实时翻译Google多语言推荐理由:Google 把语音翻译推进到新阶段,70+ 语言实时互译对跨国出行、客服、会议场景的团队是直接利好,开发者可以立刻通过 Live API 接入试试。原文
01:24marktechpost@Asif Razzaq精选Google 发布 Gemini 3.5 Live Translate,一个支持流式语音到语音翻译的音频模型,覆盖 70 多种语言。该模型通过 Gemini Live API 提供给开发者,并集成到 Google Meet 和翻译应用中。它能够连续生成音频,延迟仅为几秒。AI模型Gemini 3.5GoogleGemini Live API语音翻译流式翻译推荐理由:70+语言实时语音翻译原文
23:59rohanpaul_ai@rohanpaul_ai76°Google 发布了 Gemini 3.5 Live Translate,一种实时语音到语音翻译模型。与等待完整句子的传统系统不同,它能在说话人仍在讲话时就开始翻译,通过流式翻译技术预测并更新翻译内容。该模型支持 70 多种语言,延迟仅几秒,并能保留语速、音调和语调。它已通过 Gemini Live API、Google Meet 预览版以及 Android/iOS 上的 Google Translate 向用户推出。AI产品Gemini 3.5实时翻译语音翻译Google流式翻译推荐理由:实时语音翻译终于不再是“等说完再翻”的延迟体验——做跨国会议、直播或外语学习的人可以直接用上,建议试试 Gemini Live API 或 Google Translate 的更新。原文
23:38PolymarketMoney@PolymarketMoneyGoogle 发布了 Gemini 3.5 Live Translate,这是一项实时语音翻译功能,覆盖 70 多种语言。该功能将集成到 Gemini Live API、AI Studio、Google Translate 和 Google Meet 中。Google 正在测试超过 2000 种语言组合,旨在提升跨语言沟通效率。此举标志着 Google 在 AI 翻译领域的重大进展,尤其适用于多语言会议和实时交流场景。AI产品实时翻译Gemini 3.5语音翻译Google MeetAI Studio3 个信源在谈推荐理由:做跨国沟通或会议翻译的团队可以直接用上,Google 把实时翻译塞进了 Meet 和 Translate,省去第三方工具,值得试试。原文
23:23Google AI Developers@googleaidevs精选Gemini 3.5 Live Translate 是谷歌最新的音频模型,支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音,实现近实时的翻译输出,并具备多语言输入、自动语言检测、原生音频处理(保留语调、节奏和音高)以及噪声鲁棒性(在嘈杂环境中过滤背景噪音)等特点。开发者可利用该模型构建更自然的语音交互应用。AI模型Gemini 3.5 Live TranslateGoogle语音翻译多语言低延迟推荐理由:谷歌新模型,能实时翻译70+语言原文
19:56IT之家(博客/媒体)科大讯飞在澳门 BEYOND Expo 2026 上推出 AI 眼镜,定位为“眼前的超级 AI 助理”,售价 4299 元,6 月 15 日开启预售。眼镜仅重 40 克,采用经典眼镜形态,通过 SGS 舒适度认证。核心功能是搭载端到端语音同传大模型,支持 122 种语言翻译,覆盖通话、线上同传、同声传译、面对面翻译、视觉翻译等六大场景。此外,还支持实时提词、AI 助理(GlassClaw)和会议纪要自动生成。产品将大模型能力融入日常佩戴,旨在解决跨语言沟通和演讲痛点。AI产品AI 眼镜科大讯飞语音翻译大模型智能助理推荐理由:科大讯飞把大模型塞进 40 克眼镜里,解决了出国旅行、商务会议中语言不通的痛点,经常出差或做国际业务的用户可以直接关注。原文
10:02arXiv cs.AI@Titouan Parcollet, Shucong Zhang, Xianrui Zheng, Rogier C. van Dalen精选传统语音翻译系统依赖语音识别和文本翻译两个独立模块,容易产生级联错误。本文提出一种基于LLM的流式语音翻译架构,让模型不仅能输出翻译结果,还能自主判断是否已听到足够音频来输出。该系统通过输入语音与输出文本的自动对齐进行训练,在多个语言对上的翻译质量接近非流式基线,但延迟仅为1-2秒。这项研究解决了现有SpeechLLM系统无法实时流式输出的痛点,使语音翻译更适用于实时应用场景。论文语音翻译流式处理SpeechLLM低延迟实时系统推荐理由:做实时语音翻译的团队终于有了低延迟方案——延迟降到1-2秒且翻译质量不降,做会议同传或语音助手的开发者可以直接参考。原文