11:35AI Will@FinanceYF591°OpenAI 新语音模型 Bidi 1 首次曝光,支持双向语音交互:用户说话时模型同时监听,中途打断可立刻切换任务。实时翻译能力与上下文记忆均优于现有 Advanced Voice(高级语音模式)。该模型已小范围推送,ChatGPT 设置中可选,气泡变黄色即为 Bidi 1。后续将推出 Codex 版本。AI模型Bidi 1OpenAI语音模型实时翻译ChatGPT10 个信源在谈推荐理由:OpenAI 出了新语音模型 Bidi 1,你说它听,还能打断换话题,实时翻译也更强,快去 ChatGPT 设置里试试。原文
04:06marktechpost@Asif Razzaq精选Gradium推出两个实时语音翻译模型stt-translate和s2s-translate,覆盖英语、法语、德语、西班牙语、葡萄牙语共20个语言对。模型采用双阶段架构,将传统三模型级联简化为两个:单次转录+翻译后连接Gradium TTS,通过单个双工WebSocket运行。据Gradium报告,该模型在准确性和延迟上优于gpt-realtime-translate和gemini-3.5-live-translate。模型还支持输出语音选择和语音克隆功能。AI模型Gradiumstt-translates2s-translate语音翻译实时翻译1 个信源在谈推荐理由:Gradium发了两个实时语音翻译模型,准确率和速度都超过了GPT的实时翻译,还能选声音和克隆,做多语言交流很实用。原文
05:36Google AI Developers@googleaidevs精选Google 通过 Gemini Live API 推出 Gemini 3.5 Live Translate 功能,可为应用添加近乎实时的语音翻译。该功能采用语音到语音流式传输(S2ST),支持连续翻译广播音频并同步生成转录文本。演示中用户能用母语收听全球广播节目,实现无缝的跨语言直播体验。AI产品Gemini 3.5Gemini Live APIGoogle语音翻译实时翻译推荐理由:谷歌 API 上新实时语音翻译原文
07:47orange.ai@oran_ge76°Google 发布了 Gemini 3.5 Live Translate,一款支持 70 多种语言的实时翻译模型。它能边听边译,仅比说话人慢几秒,并保留语调、节奏和音高。该模型自动滤除噪音,在嘈杂环境中也能使用。Google Translate App 新增「听筒模式」,贴耳即听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用,且支持自动语言检测。AI产品实时翻译Gemini 3.5 Live Translate语音模型Google TranslateAPI推荐理由:做跨语言沟通、实时翻译或语音应用的开发者可以直接调用 API 体验,不用再忍受延迟和机械感——保留语调的翻译让交流更自然。原文
17:03小互@imxiaohu78°Google 发布了 Gemini 3.5 Live Translate,一款支持 70 多种语言的实时翻译模型。该模型能边听边译,仅比说话人慢几秒,同时保留语调、节奏和音高。它还能自动滤除噪音,在嘈杂环境中也能使用。Google Translate App 新增了「听筒模式」,贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用,并支持自动语言检测。AI产品实时翻译Gemini 3.5语音模型GoogleAPI推荐理由:实时翻译终于有了「人味」——保留语调节奏,做跨国会议、播客或直播的团队可以直接用 API 集成,体验比传统逐句翻译好太多。原文
08:02berryxia@berryxia76°Google 昨晚低调推出 Gemini 3.5 Live Translate,直接进入公开预览阶段。该模型支持低延迟语音对语音翻译,覆盖 70 多种语言、2000 种语言对,包括大量冷门小语种。开发者可通过 Gemini API 集成到应用,实现实时对话、客服、直播、跨国会议等场景。此举将实时翻译从“偶尔可用”推向“随时随地标配”,为产品全球化提供关键工具。AI产品实时翻译Gemini 3.5语音对语音全球化API推荐理由:做全球化产品的开发者终于有了低门槛的实时翻译方案——Gemini 3.5 覆盖 2000 种语言对,连冷门小语种都包了,直接集成 API 就能让应用秒变全球通,建议试试。原文
04:00Google AI@GoogleAI76°Google AI 发布了 Gemini 3.5 Live Translate,这是其最新的音频模型,专为实时语音到语音翻译设计。该模型支持超过 70 种语言,能在用户开始说话的同时进行翻译,并流式输出结果,无需等待或停顿。它通过同时接收输入和输出翻译语音,在速度和翻译质量之间做出毫秒级决策,保持对话的流畅自然。此外,模型还能在长时间会话中维持语速、音高和语调,提升用户体验。目前该功能已在 Google Translate 应用的 iOS 和 Android 版本中上线。AI产品Gemini 3.5实时翻译语音模型Google AI跨语言沟通推荐理由:跨语言沟通的痛点终于被解决了——Gemini 3.5 Live Translate 让实时翻译不再有尴尬停顿,经常需要与外语人士交流的团队或个人可以直接在 Google Translate 应用中体验。原文
03:08Jeff Dean@JeffDeanGoogle 在语音翻译领域长期投入,最新推出 Gemini 3.5 Live Translate 模型,支持超过 70 种语言的语音到语音实时翻译。该模型旨在让跨语言对话更自然,已集成到 Google Translate 和 Google AI Studio 的 Live API 中。合作伙伴 Grab 正在利用该技术帮助司机与乘客沟通,展示了实际应用场景。这是 Google 在语音翻译领域的最新进展,有望提升日常应用中的多语言交流体验。AI产品语音翻译Gemini 3.5实时翻译Google多语言推荐理由:Google 把语音翻译推进到新阶段,70+ 语言实时互译对跨国出行、客服、会议场景的团队是直接利好,开发者可以立刻通过 Live API 接入试试。原文
03:07Patrick Loeber@patloeber78°Google 在 Gemini API 和 AI Studio 中推出了 Gemini 3.5 Live Translate,这是一个全新的音频模型,专注于实时翻译。它支持 70 多种语言的低延迟翻译,能自动检测多语言输入,并在单个会话中处理。该模型原生处理音频,保留语调和节奏,并具备强大的噪声过滤能力,适合嘈杂环境。目前处于公开预览阶段,开发者可通过 Gemini Live API 和 AI Studio 试用。AI产品Gemini 3.5实时翻译音频模型低延迟Google AI Studio推荐理由:做多语言实时翻译或语音应用的开发者,终于有了一个低延迟、支持 70+ 语言且能自动检测语种的音频模型,值得在 AI Studio 上直接试玩。原文
01:33Decoder@Matthias BastianGoogle 发布了 Gemini 3.5 Live Translate,这是一个音频模型,支持超过70种语言的实时语音翻译。系统无需等待句子结束即可连续翻译,并声称能保留说话者的语调、语速和音高。在 Google Meet 中,语言支持从5种跃升至70多种。这标志着实时翻译技术的重要进步,尤其对跨国会议和多语言沟通场景有重大影响。AI产品实时翻译语音模型Google MeetGemini 3.5多语言3 个信源在谈推荐理由:跨国团队和频繁开会的用户终于有了靠谱的实时翻译工具——Gemini 3.5 不仅支持70+语言,还能保留说话者的语气和节奏,建议在 Google Meet 中直接体验。原文
00:46Philipp Schmid@_philschmid83°Google 发布了基于 Gemini 3.5 的实时翻译功能,支持 70 多种语言和 2000 多个语言对。该功能能够自然翻译语音,在嘈杂环境中也能正常工作,并且与说话者保持同步,无延迟和尴尬停顿。它还能自动检测正在使用的语言。目前已在 Google Translate(Android 和 iOS)、Gemini API(公开预览)和 Google Meet(私人预览)中可用。这被认为是消除语言障碍的重要一步。AI产品Gemini 3.5实时翻译Google Translate语言障碍多语言推荐理由:Google 用 Gemini 3.5 把实时翻译做到了实用级别,70+语言、无延迟、抗噪,跨语言沟通的团队和旅行者可以直接在 Google Translate 里体验,语言障碍的终结可能真的开始了。原文
23:59rohanpaul_ai@rohanpaul_ai76°Google 发布了 Gemini 3.5 Live Translate,一种实时语音到语音翻译模型。与等待完整句子的传统系统不同,它能在说话人仍在讲话时就开始翻译,通过流式翻译技术预测并更新翻译内容。该模型支持 70 多种语言,延迟仅几秒,并能保留语速、音调和语调。它已通过 Gemini Live API、Google Meet 预览版以及 Android/iOS 上的 Google Translate 向用户推出。AI产品Gemini 3.5实时翻译语音翻译Google流式翻译推荐理由:实时语音翻译终于不再是“等说完再翻”的延迟体验——做跨国会议、直播或外语学习的人可以直接用上,建议试试 Gemini Live API 或 Google Translate 的更新。原文
23:38PolymarketMoney@PolymarketMoneyGoogle 发布了 Gemini 3.5 Live Translate,这是一项实时语音翻译功能,覆盖 70 多种语言。该功能将集成到 Gemini Live API、AI Studio、Google Translate 和 Google Meet 中。Google 正在测试超过 2000 种语言组合,旨在提升跨语言沟通效率。此举标志着 Google 在 AI 翻译领域的重大进展,尤其适用于多语言会议和实时交流场景。AI产品实时翻译Gemini 3.5语音翻译Google MeetAI Studio3 个信源在谈推荐理由:做跨国沟通或会议翻译的团队可以直接用上,Google 把实时翻译塞进了 Meet 和 Translate,省去第三方工具,值得试试。原文
10:27arXiv cs.AI@Quentin Fuxa, Dominik MacháčekAlignAtt4LLM 是 IWSLT 2026 同声传译任务的参赛系统,支持英语到德语、意大利语和中文的实时翻译。它采用同步级联架构:Qwen3-ASR 通过强制对齐生成逐步更新的源文本,Gemma-4 E4B-it 在 MT 侧使用 AlignAtt 策略进行翻译。这是首次将 AlignAtt 应用于纯解码器 LLM,解决了缺少编码器-解码器交叉注意力的问题,通过显式源跨度提示、离线选择翻译专用注意力头、选择性 qk-fast replay 和运行时查询/键捕获实现。在 IWSLT 2026 开发集上,该系统在低延迟(约2秒)和高延迟(低于4秒)场景下,对欧洲目标语言(英译德、英译意)均优于基线,对英译中结果较复杂,但方法不限于 Gemma-4,可复用于更强的翻译解码器 LLM。论文同声传译AlignAtt纯解码器LLM实时翻译Gemma-410 个信源在谈推荐理由:做同声传译或实时翻译系统的团队,终于有了一个在纯解码器 LLM 上跑 AlignAtt 的可行方案,低延迟场景下效果显著,值得参考实现。原文
04:15Greg Brockman@gdb72°OpenAI 推出全新模型 gpt-realtime-translate,专为实时语音翻译设计。该模型支持 70 多种输入语言,并能将语音直接翻译成 13 种目标语言的语音输出。与通用大模型不同,这是针对特定场景优化的专用模型,已在智能眼镜上运行。这一发布标志着 AI 翻译从文本处理向端到端语音翻译的跨越,对跨国交流、旅游、商务等场景有重大意义。AI产品OpenAI实时翻译语音模型智能眼镜多语言10 个信源在谈推荐理由:实时语音翻译终于有了专用模型,做跨国业务、旅行或智能硬件的团队可以直接用起来,省去多步转写的麻烦。原文
20:22阿里云 Alibaba Cloud@alibaba_cloud在 Qwen Conference 2026 上,Kara Tech 的 CEO Arash Tayebi 参与了基础模型论坛,讨论了 AI 如何超越字幕,推动数字包容的新前沿。会议聚焦于 AI 原生技术如何为残障人士和语言障碍群体提供更平等的数字体验。该论坛强调了 AI 在实时翻译、无障碍交互等方面的潜力,标志着数字包容从辅助功能向核心体验的转变。活动还预告了更多 AI 原生应用的发布,值得关注。行业数字包容AI 原生无障碍实时翻译Qwen推荐理由:数字包容是 AI 落地的关键社会价值场景,做无障碍产品、多语言服务的团队可以关注 AI 如何从字幕走向更深层的交互平等。原文
08:06IT之家(博客/媒体)腾讯会议正式推出“AI 同传”功能,支持模仿用户音色,时延低于3秒,实现发言与翻译几乎同步。每位参会者可独立开启同传,选择自己需要的语言,收听时仿佛用户本人用流利外语发言。该功能无需插件或外接设备,并支持调节同传与原声音量,方便核验关键信息。同时,AI 同传与文字转写、会中字幕打通,实现跨语言会议的可听、可译、可见、可记。AI产品腾讯会议AI同传语音合成实时翻译音色模仿推荐理由:跨国会议和远程协作的团队终于有了低延迟、高拟真的同传方案——不用外挂设备,还能模仿发言人音色,做国际业务或跨语言沟通的可以直接在腾讯会议里开启试试。原文
08:00IT之家(博客/媒体)在2026年谷歌I/O开发者大会上,谷歌与三星展示了由Gentle Monster和Warby Parker设计的2款智能眼镜。这两款眼镜作为手机伴侣设备,整合Gemini AI模型,提供免手操作的智能辅助,支持语音导航、个性化推荐、自提订单下达和通知摘要。核心功能包括实时翻译,可翻译语音和视线中的文字。外观上,Gentle Monster版本偏时尚,Warby Parker版本偏日常。首批产品预计今秋上市,无显示版本售价或为379-499美元。AI产品智能眼镜Gemini AI语音导航实时翻译谷歌/三星推荐理由:智能眼镜终于有了实用的AI整合——Gemini驱动的语音导航和实时翻译解决了日常出行和跨语言交流痛点,经常旅行或需要免手操作的用户值得关注。原文
16:14IT之家(博客/媒体)阿里通义千问团队发布Qwen3.5-LiveTranslate-Flash实时语音翻译模型,解决了跨境直播、跨国会议等场景中的延迟、语种覆盖和音色保留三大痛点。该模型支持60种语言输入和29种语言输出,端到端字均延迟仅2.8秒,并具备实时音色克隆功能,能保留说话人原声特征。内置热词引擎可自定义1000个词条,提升专有名词和行业术语的翻译准确性。在FLEURS和CoVoST2基准上,翻译准确率优于主流语音大模型,相比前代Qwen3-LiveTranslate-Flash在延迟和语言覆盖上均有显著提升。AI模型实时翻译语音模型同声传译音色克隆阿里通义千问推荐理由:跨境直播、跨国会议和出海团队终于有了低延迟、高语种覆盖的实时同传方案,还能保留说话人原声,做内容出海或智能硬件的开发者可以直接试。原文
15:02IT之家(博客/媒体)精选IT之家5月14日消息,Android Authority挖掘安卓10.17.48.914427315.6-release版谷歌翻译发现离线实时翻译功能。该功能在无网时支持英语、法语、德语、葡萄牙语、意大利语和西班牙语,需提前下载语言包。目前已有完整引导界面但功能尚未成熟,实时语音翻译离线实现难度较高。AI产品谷歌翻译Google Translate安卓实时翻译离线翻译推荐理由:谷歌翻译离线也能实时语音翻译原文