全部 AI 动态 · AI 热点

6月25日

11:35

AI Will@FinanceYF5

91°

OpenAI 新语音模型 Bidi 1 首次曝光，支持双向语音交互：用户说话时模型同时监听，中途打断可立刻切换任务。实时翻译能力与上下文记忆均优于现有 Advanced Voice（高级语音模式）。该模型已小范围推送，ChatGPT 设置中可选，气泡变黄色即为 Bidi 1。后续将推出 Codex 版本。

AI模型 Bidi 1 OpenAI 语音模型实时翻译 ChatGPT

推荐理由：OpenAI 出了新语音模型 Bidi 1，你说它听，还能打断换话题，实时翻译也更强，快去 ChatGPT 设置里试试。

原文

04:06

marktechpost@Asif Razzaq

精选

Gradium推出两个实时语音翻译模型stt-translate和s2s-translate，覆盖英语、法语、德语、西班牙语、葡萄牙语共20个语言对。模型采用双阶段架构，将传统三模型级联简化为两个：单次转录+翻译后连接Gradium TTS，通过单个双工WebSocket运行。据Gradium报告，该模型在准确性和延迟上优于gpt-realtime-translate和gemini-3.5-live-translate。模型还支持输出语音选择和语音克隆功能。

AI模型 Gradium stt-translate s2s-translate 语音翻译实时翻译

推荐理由：Gradium发了两个实时语音翻译模型，准确率和速度都超过了GPT的实时翻译，还能选声音和克隆，做多语言交流很实用。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

05:36

Google AI Developers@googleaidevs

精选

Google 通过 Gemini Live API 推出 Gemini 3.5 Live Translate 功能，可为应用添加近乎实时的语音翻译。该功能采用语音到语音流式传输（S2ST），支持连续翻译广播音频并同步生成转录文本。演示中用户能用母语收听全球广播节目，实现无缝的跨语言直播体验。

AI产品 Gemini 3.5 Gemini Live API Google 语音翻译实时翻译

推荐理由：谷歌 API 上新实时语音翻译

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

07:47

orange.ai@oran_ge

76°

Google 发布了 Gemini 3.5 Live Translate，一款支持 70 多种语言的实时翻译模型。它能边听边译，仅比说话人慢几秒，并保留语调、节奏和音高。该模型自动滤除噪音，在嘈杂环境中也能使用。Google Translate App 新增「听筒模式」，贴耳即听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用，且支持自动语言检测。

AI产品实时翻译 Gemini 3.5 Live Translate 语音模型 Google Translate API

推荐理由：做跨语言沟通、实时翻译或语音应用的开发者可以直接调用 API 体验，不用再忍受延迟和机械感——保留语调的翻译让交流更自然。

原文

6月10日

17:03

小互@imxiaohu

78°

Google 发布了 Gemini 3.5 Live Translate，一款支持 70 多种语言的实时翻译模型。该模型能边听边译，仅比说话人慢几秒，同时保留语调、节奏和音高。它还能自动滤除噪音，在嘈杂环境中也能使用。Google Translate App 新增了「听筒模式」，贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用，并支持自动语言检测。

AI产品实时翻译 Gemini 3.5 语音模型 Google API

推荐理由：实时翻译终于有了「人味」——保留语调节奏，做跨国会议、播客或直播的团队可以直接用 API 集成，体验比传统逐句翻译好太多。

原文

08:02

berryxia@berryxia

76°

Google 昨晚低调推出 Gemini 3.5 Live Translate，直接进入公开预览阶段。该模型支持低延迟语音对语音翻译，覆盖 70 多种语言、2000 种语言对，包括大量冷门小语种。开发者可通过 Gemini API 集成到应用，实现实时对话、客服、直播、跨国会议等场景。此举将实时翻译从“偶尔可用”推向“随时随地标配”，为产品全球化提供关键工具。

AI产品实时翻译 Gemini 3.5 语音对语音全球化 API

推荐理由：做全球化产品的开发者终于有了低门槛的实时翻译方案——Gemini 3.5 覆盖 2000 种语言对，连冷门小语种都包了，直接集成 API 就能让应用秒变全球通，建议试试。

原文

04:00

Google AI@GoogleAI

76°

Google AI 发布了 Gemini 3.5 Live Translate，这是其最新的音频模型，专为实时语音到语音翻译设计。该模型支持超过 70 种语言，能在用户开始说话的同时进行翻译，并流式输出结果，无需等待或停顿。它通过同时接收输入和输出翻译语音，在速度和翻译质量之间做出毫秒级决策，保持对话的流畅自然。此外，模型还能在长时间会话中维持语速、音高和语调，提升用户体验。目前该功能已在 Google Translate 应用的 iOS 和 Android 版本中上线。

AI产品 Gemini 3.5 实时翻译语音模型 Google AI 跨语言沟通

推荐理由：跨语言沟通的痛点终于被解决了——Gemini 3.5 Live Translate 让实时翻译不再有尴尬停顿，经常需要与外语人士交流的团队或个人可以直接在 Google Translate 应用中体验。

原文

03:08

Jeff Dean@JeffDean

Google 在语音翻译领域长期投入，最新推出 Gemini 3.5 Live Translate 模型，支持超过 70 种语言的语音到语音实时翻译。该模型旨在让跨语言对话更自然，已集成到 Google Translate 和 Google AI Studio 的 Live API 中。合作伙伴 Grab 正在利用该技术帮助司机与乘客沟通，展示了实际应用场景。这是 Google 在语音翻译领域的最新进展，有望提升日常应用中的多语言交流体验。

AI产品语音翻译 Gemini 3.5 实时翻译 Google 多语言

推荐理由：Google 把语音翻译推进到新阶段，70+ 语言实时互译对跨国出行、客服、会议场景的团队是直接利好，开发者可以立刻通过 Live API 接入试试。

原文

03:07

Patrick Loeber@patloeber

78°

Google 在 Gemini API 和 AI Studio 中推出了 Gemini 3.5 Live Translate，这是一个全新的音频模型，专注于实时翻译。它支持 70 多种语言的低延迟翻译，能自动检测多语言输入，并在单个会话中处理。该模型原生处理音频，保留语调和节奏，并具备强大的噪声过滤能力，适合嘈杂环境。目前处于公开预览阶段，开发者可通过 Gemini Live API 和 AI Studio 试用。

AI产品 Gemini 3.5 实时翻译音频模型低延迟 Google AI Studio

推荐理由：做多语言实时翻译或语音应用的开发者，终于有了一个低延迟、支持 70+ 语言且能自动检测语种的音频模型，值得在 AI Studio 上直接试玩。

原文

01:33

Decoder@Matthias Bastian

Google 发布了 Gemini 3.5 Live Translate，这是一个音频模型，支持超过70种语言的实时语音翻译。系统无需等待句子结束即可连续翻译，并声称能保留说话者的语调、语速和音高。在 Google Meet 中，语言支持从5种跃升至70多种。这标志着实时翻译技术的重要进步，尤其对跨国会议和多语言沟通场景有重大影响。

AI产品实时翻译语音模型 Google Meet Gemini 3.5 多语言

推荐理由：跨国团队和频繁开会的用户终于有了靠谱的实时翻译工具——Gemini 3.5 不仅支持70+语言，还能保留说话者的语气和节奏，建议在 Google Meet 中直接体验。

原文

00:46

Philipp Schmid@_philschmid

83°

Google 发布了基于 Gemini 3.5 的实时翻译功能，支持 70 多种语言和 2000 多个语言对。该功能能够自然翻译语音，在嘈杂环境中也能正常工作，并且与说话者保持同步，无延迟和尴尬停顿。它还能自动检测正在使用的语言。目前已在 Google Translate（Android 和 iOS）、Gemini API（公开预览）和 Google Meet（私人预览）中可用。这被认为是消除语言障碍的重要一步。

AI产品 Gemini 3.5 实时翻译 Google Translate 语言障碍多语言

推荐理由：Google 用 Gemini 3.5 把实时翻译做到了实用级别，70+语言、无延迟、抗噪，跨语言沟通的团队和旅行者可以直接在 Google Translate 里体验，语言障碍的终结可能真的开始了。

原文

6月9日

23:59

rohanpaul_ai@rohanpaul_ai

76°

Google 发布了 Gemini 3.5 Live Translate，一种实时语音到语音翻译模型。与等待完整句子的传统系统不同，它能在说话人仍在讲话时就开始翻译，通过流式翻译技术预测并更新翻译内容。该模型支持 70 多种语言，延迟仅几秒，并能保留语速、音调和语调。它已通过 Gemini Live API、Google Meet 预览版以及 Android/iOS 上的 Google Translate 向用户推出。

AI产品 Gemini 3.5 实时翻译语音翻译 Google 流式翻译

推荐理由：实时语音翻译终于不再是“等说完再翻”的延迟体验——做跨国会议、直播或外语学习的人可以直接用上，建议试试 Gemini Live API 或 Google Translate 的更新。

原文

23:38

PolymarketMoney@PolymarketMoney

Google 发布了 Gemini 3.5 Live Translate，这是一项实时语音翻译功能，覆盖 70 多种语言。该功能将集成到 Gemini Live API、AI Studio、Google Translate 和 Google Meet 中。Google 正在测试超过 2000 种语言组合，旨在提升跨语言沟通效率。此举标志着 Google 在 AI 翻译领域的重大进展，尤其适用于多语言会议和实时交流场景。

AI产品实时翻译 Gemini 3.5 语音翻译 Google Meet AI Studio

推荐理由：做跨国沟通或会议翻译的团队可以直接用上，Google 把实时翻译塞进了 Meet 和 Translate，省去第三方工具，值得试试。

原文

6月3日

10:27

arXiv cs.AI@Quentin Fuxa, Dominik Macháček

AlignAtt4LLM 是 IWSLT 2026 同声传译任务的参赛系统，支持英语到德语、意大利语和中文的实时翻译。它采用同步级联架构：Qwen3-ASR 通过强制对齐生成逐步更新的源文本，Gemma-4 E4B-it 在 MT 侧使用 AlignAtt 策略进行翻译。这是首次将 AlignAtt 应用于纯解码器 LLM，解决了缺少编码器-解码器交叉注意力的问题，通过显式源跨度提示、离线选择翻译专用注意力头、选择性 qk-fast replay 和运行时查询/键捕获实现。在 IWSLT 2026 开发集上，该系统在低延迟（约2秒）和高延迟（低于4秒）场景下，对欧洲目标语言（英译德、英译意）均优于基线，对英译中结果较复杂，但方法不限于 Gemma-4，可复用于更强的翻译解码器 LLM。

论文同声传译 AlignAtt 纯解码器LLM 实时翻译 Gemma-4

推荐理由：做同声传译或实时翻译系统的团队，终于有了一个在纯解码器 LLM 上跑 AlignAtt 的可行方案，低延迟场景下效果显著，值得参考实现。

原文

5月30日

04:15

Greg Brockman@gdb

72°

OpenAI 推出全新模型 gpt-realtime-translate，专为实时语音翻译设计。该模型支持 70 多种输入语言，并能将语音直接翻译成 13 种目标语言的语音输出。与通用大模型不同，这是针对特定场景优化的专用模型，已在智能眼镜上运行。这一发布标志着 AI 翻译从文本处理向端到端语音翻译的跨越，对跨国交流、旅游、商务等场景有重大意义。

AI产品 OpenAI 实时翻译语音模型智能眼镜多语言

推荐理由：实时语音翻译终于有了专用模型，做跨国业务、旅行或智能硬件的团队可以直接用起来，省去多步转写的麻烦。

原文

5月25日

20:22

阿里云 Alibaba Cloud@alibaba_cloud

在 Qwen Conference 2026 上，Kara Tech 的 CEO Arash Tayebi 参与了基础模型论坛，讨论了 AI 如何超越字幕，推动数字包容的新前沿。会议聚焦于 AI 原生技术如何为残障人士和语言障碍群体提供更平等的数字体验。该论坛强调了 AI 在实时翻译、无障碍交互等方面的潜力，标志着数字包容从辅助功能向核心体验的转变。活动还预告了更多 AI 原生应用的发布，值得关注。

行业数字包容 AI 原生无障碍实时翻译 Qwen

推荐理由：数字包容是 AI 落地的关键社会价值场景，做无障碍产品、多语言服务的团队可以关注 AI 如何从字幕走向更深层的交互平等。

原文

5月22日

08:06

08:06IT之家（博客/媒体）

腾讯会议正式推出“AI 同传”功能，支持模仿用户音色，时延低于3秒，实现发言与翻译几乎同步。每位参会者可独立开启同传，选择自己需要的语言，收听时仿佛用户本人用流利外语发言。该功能无需插件或外接设备，并支持调节同传与原声音量，方便核验关键信息。同时，AI 同传与文字转写、会中字幕打通，实现跨语言会议的可听、可译、可见、可记。

AI产品腾讯会议 AI同传语音合成实时翻译音色模仿

推荐理由：跨国会议和远程协作的团队终于有了低延迟、高拟真的同传方案——不用外挂设备，还能模仿发言人音色，做国际业务或跨语言沟通的可以直接在腾讯会议里开启试试。

原文

5月21日

08:00

08:00IT之家（博客/媒体）

在2026年谷歌I/O开发者大会上，谷歌与三星展示了由Gentle Monster和Warby Parker设计的2款智能眼镜。这两款眼镜作为手机伴侣设备，整合Gemini AI模型，提供免手操作的智能辅助，支持语音导航、个性化推荐、自提订单下达和通知摘要。核心功能包括实时翻译，可翻译语音和视线中的文字。外观上，Gentle Monster版本偏时尚，Warby Parker版本偏日常。首批产品预计今秋上市，无显示版本售价或为379-499美元。

AI产品智能眼镜 Gemini AI 语音导航实时翻译谷歌/三星

推荐理由：智能眼镜终于有了实用的AI整合——Gemini驱动的语音导航和实时翻译解决了日常出行和跨语言交流痛点，经常旅行或需要免手操作的用户值得关注。

原文

5月20日

16:14

16:14IT之家（博客/媒体）

阿里通义千问团队发布Qwen3.5-LiveTranslate-Flash实时语音翻译模型，解决了跨境直播、跨国会议等场景中的延迟、语种覆盖和音色保留三大痛点。该模型支持60种语言输入和29种语言输出，端到端字均延迟仅2.8秒，并具备实时音色克隆功能，能保留说话人原声特征。内置热词引擎可自定义1000个词条，提升专有名词和行业术语的翻译准确性。在FLEURS和CoVoST2基准上，翻译准确率优于主流语音大模型，相比前代Qwen3-LiveTranslate-Flash在延迟和语言覆盖上均有显著提升。

AI模型实时翻译语音模型同声传译音色克隆阿里通义千问

推荐理由：跨境直播、跨国会议和出海团队终于有了低延迟、高语种覆盖的实时同传方案，还能保留说话人原声，做内容出海或智能硬件的开发者可以直接试。

原文

5月14日

15:02

15:02IT之家（博客/媒体）

精选

IT之家5月14日消息，Android Authority挖掘安卓10.17.48.914427315.6-release版谷歌翻译发现离线实时翻译功能。该功能在无网时支持英语、法语、德语、葡萄牙语、意大利语和西班牙语，需提前下载语言包。目前已有完整引导界面但功能尚未成熟，实时语音翻译离线实现难度较高。

AI产品谷歌翻译 Google Translate 安卓实时翻译离线翻译

推荐理由：谷歌翻译离线也能实时语音翻译

原文