全部 AI 动态 · AI 热点

6月25日

11:35

AI Will@FinanceYF5

91°

OpenAI 新语音模型 Bidi 1 首次曝光，支持双向语音交互：用户说话时模型同时监听，中途打断可立刻切换任务。实时翻译能力与上下文记忆均优于现有 Advanced Voice（高级语音模式）。该模型已小范围推送，ChatGPT 设置中可选，气泡变黄色即为 Bidi 1。后续将推出 Codex 版本。

AI模型 Bidi 1 OpenAI 语音模型实时翻译 ChatGPT

推荐理由：OpenAI 出了新语音模型 Bidi 1，你说它听，还能打断换话题，实时翻译也更强，快去 ChatGPT 设置里试试。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

05:36

Google AI Developers@googleaidevs

精选

Google 通过 Gemini Live API 推出 Gemini 3.5 Live Translate 功能，可为应用添加近乎实时的语音翻译。该功能采用语音到语音流式传输（S2ST），支持连续翻译广播音频并同步生成转录文本。演示中用户能用母语收听全球广播节目，实现无缝的跨语言直播体验。

AI产品 Gemini 3.5 Gemini Live API Google 语音翻译实时翻译

推荐理由：谷歌 API 上新实时语音翻译

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

07:47

orange.ai@oran_ge

76°

Google 发布了 Gemini 3.5 Live Translate，一款支持 70 多种语言的实时翻译模型。它能边听边译，仅比说话人慢几秒，并保留语调、节奏和音高。该模型自动滤除噪音，在嘈杂环境中也能使用。Google Translate App 新增「听筒模式」，贴耳即听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用，且支持自动语言检测。

AI产品实时翻译 Gemini 3.5 Live Translate 语音模型 Google Translate API

推荐理由：做跨语言沟通、实时翻译或语音应用的开发者可以直接调用 API 体验，不用再忍受延迟和机械感——保留语调的翻译让交流更自然。

原文

6月10日

17:03

小互@imxiaohu

78°

Google 发布了 Gemini 3.5 Live Translate，一款支持 70 多种语言的实时翻译模型。该模型能边听边译，仅比说话人慢几秒，同时保留语调、节奏和音高。它还能自动滤除噪音，在嘈杂环境中也能使用。Google Translate App 新增了「听筒模式」，贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 直接调用，并支持自动语言检测。

AI产品实时翻译 Gemini 3.5 语音模型 Google API

推荐理由：实时翻译终于有了「人味」——保留语调节奏，做跨国会议、播客或直播的团队可以直接用 API 集成，体验比传统逐句翻译好太多。

原文

08:02

berryxia@berryxia

76°

Google 昨晚低调推出 Gemini 3.5 Live Translate，直接进入公开预览阶段。该模型支持低延迟语音对语音翻译，覆盖 70 多种语言、2000 种语言对，包括大量冷门小语种。开发者可通过 Gemini API 集成到应用，实现实时对话、客服、直播、跨国会议等场景。此举将实时翻译从“偶尔可用”推向“随时随地标配”，为产品全球化提供关键工具。

AI产品实时翻译 Gemini 3.5 语音对语音全球化 API

推荐理由：做全球化产品的开发者终于有了低门槛的实时翻译方案——Gemini 3.5 覆盖 2000 种语言对，连冷门小语种都包了，直接集成 API 就能让应用秒变全球通，建议试试。

原文

04:00

Google AI@GoogleAI

76°

Google AI 发布了 Gemini 3.5 Live Translate，这是其最新的音频模型，专为实时语音到语音翻译设计。该模型支持超过 70 种语言，能在用户开始说话的同时进行翻译，并流式输出结果，无需等待或停顿。它通过同时接收输入和输出翻译语音，在速度和翻译质量之间做出毫秒级决策，保持对话的流畅自然。此外，模型还能在长时间会话中维持语速、音高和语调，提升用户体验。目前该功能已在 Google Translate 应用的 iOS 和 Android 版本中上线。

AI产品 Gemini 3.5 实时翻译语音模型 Google AI 跨语言沟通

推荐理由：跨语言沟通的痛点终于被解决了——Gemini 3.5 Live Translate 让实时翻译不再有尴尬停顿，经常需要与外语人士交流的团队或个人可以直接在 Google Translate 应用中体验。

原文

03:08

Jeff Dean@JeffDean

Google 在语音翻译领域长期投入，最新推出 Gemini 3.5 Live Translate 模型，支持超过 70 种语言的语音到语音实时翻译。该模型旨在让跨语言对话更自然，已集成到 Google Translate 和 Google AI Studio 的 Live API 中。合作伙伴 Grab 正在利用该技术帮助司机与乘客沟通，展示了实际应用场景。这是 Google 在语音翻译领域的最新进展，有望提升日常应用中的多语言交流体验。

AI产品语音翻译 Gemini 3.5 实时翻译 Google 多语言

推荐理由：Google 把语音翻译推进到新阶段，70+ 语言实时互译对跨国出行、客服、会议场景的团队是直接利好，开发者可以立刻通过 Live API 接入试试。

原文

03:07

Patrick Loeber@patloeber

78°

Google 在 Gemini API 和 AI Studio 中推出了 Gemini 3.5 Live Translate，这是一个全新的音频模型，专注于实时翻译。它支持 70 多种语言的低延迟翻译，能自动检测多语言输入，并在单个会话中处理。该模型原生处理音频，保留语调和节奏，并具备强大的噪声过滤能力，适合嘈杂环境。目前处于公开预览阶段，开发者可通过 Gemini Live API 和 AI Studio 试用。

AI产品 Gemini 3.5 实时翻译音频模型低延迟 Google AI Studio

推荐理由：做多语言实时翻译或语音应用的开发者，终于有了一个低延迟、支持 70+ 语言且能自动检测语种的音频模型，值得在 AI Studio 上直接试玩。

原文

00:46

Philipp Schmid@_philschmid

83°

Google 发布了基于 Gemini 3.5 的实时翻译功能，支持 70 多种语言和 2000 多个语言对。该功能能够自然翻译语音，在嘈杂环境中也能正常工作，并且与说话者保持同步，无延迟和尴尬停顿。它还能自动检测正在使用的语言。目前已在 Google Translate（Android 和 iOS）、Gemini API（公开预览）和 Google Meet（私人预览）中可用。这被认为是消除语言障碍的重要一步。

AI产品 Gemini 3.5 实时翻译 Google Translate 语言障碍多语言

推荐理由：Google 用 Gemini 3.5 把实时翻译做到了实用级别，70+语言、无延迟、抗噪，跨语言沟通的团队和旅行者可以直接在 Google Translate 里体验，语言障碍的终结可能真的开始了。

原文

6月9日

23:59

rohanpaul_ai@rohanpaul_ai

76°

Google 发布了 Gemini 3.5 Live Translate，一种实时语音到语音翻译模型。与等待完整句子的传统系统不同，它能在说话人仍在讲话时就开始翻译，通过流式翻译技术预测并更新翻译内容。该模型支持 70 多种语言，延迟仅几秒，并能保留语速、音调和语调。它已通过 Gemini Live API、Google Meet 预览版以及 Android/iOS 上的 Google Translate 向用户推出。

AI产品 Gemini 3.5 实时翻译语音翻译 Google 流式翻译

推荐理由：实时语音翻译终于不再是“等说完再翻”的延迟体验——做跨国会议、直播或外语学习的人可以直接用上，建议试试 Gemini Live API 或 Google Translate 的更新。

原文

23:38

PolymarketMoney@PolymarketMoney

Google 发布了 Gemini 3.5 Live Translate，这是一项实时语音翻译功能，覆盖 70 多种语言。该功能将集成到 Gemini Live API、AI Studio、Google Translate 和 Google Meet 中。Google 正在测试超过 2000 种语言组合，旨在提升跨语言沟通效率。此举标志着 Google 在 AI 翻译领域的重大进展，尤其适用于多语言会议和实时交流场景。

AI产品实时翻译 Gemini 3.5 语音翻译 Google Meet AI Studio

推荐理由：做跨国沟通或会议翻译的团队可以直接用上，Google 把实时翻译塞进了 Meet 和 Translate，省去第三方工具，值得试试。

原文

5月30日

04:15

Greg Brockman@gdb

72°

OpenAI 推出全新模型 gpt-realtime-translate，专为实时语音翻译设计。该模型支持 70 多种输入语言，并能将语音直接翻译成 13 种目标语言的语音输出。与通用大模型不同，这是针对特定场景优化的专用模型，已在智能眼镜上运行。这一发布标志着 AI 翻译从文本处理向端到端语音翻译的跨越，对跨国交流、旅游、商务等场景有重大意义。

AI产品 OpenAI 实时翻译语音模型智能眼镜多语言

推荐理由：实时语音翻译终于有了专用模型，做跨国业务、旅行或智能硬件的团队可以直接用起来，省去多步转写的麻烦。

原文

5月25日

20:22

阿里云 Alibaba Cloud@alibaba_cloud

在 Qwen Conference 2026 上，Kara Tech 的 CEO Arash Tayebi 参与了基础模型论坛，讨论了 AI 如何超越字幕，推动数字包容的新前沿。会议聚焦于 AI 原生技术如何为残障人士和语言障碍群体提供更平等的数字体验。该论坛强调了 AI 在实时翻译、无障碍交互等方面的潜力，标志着数字包容从辅助功能向核心体验的转变。活动还预告了更多 AI 原生应用的发布，值得关注。

行业数字包容 AI 原生无障碍实时翻译 Qwen

推荐理由：数字包容是 AI 落地的关键社会价值场景，做无障碍产品、多语言服务的团队可以关注 AI 如何从字幕走向更深层的交互平等。

原文