全部 AI 动态 · AI 热点

6月25日

04:06

04:06

marktechpost@Asif Razzaq

精选

Gradium推出两个实时语音翻译模型stt-translate和s2s-translate，覆盖英语、法语、德语、西班牙语、葡萄牙语共20个语言对。模型采用双阶段架构，将传统三模型级联简化为两个：单次转录+翻译后连接Gradium TTS，通过单个双工WebSocket运行。据Gradium报告，该模型在准确性和延迟上优于gpt-realtime-translate和gemini-3.5-live-translate。模型还支持输出语音选择和语音克隆功能。

AI模型 Gradium stt-translate s2s-translate 语音翻译实时翻译

推荐理由：Gradium发了两个实时语音翻译模型，准确率和速度都超过了GPT的实时翻译，还能选声音和克隆，做多语言交流很实用。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

05:36

05:36

Google AI Developers@googleaidevs

精选

Google 通过 Gemini Live API 推出 Gemini 3.5 Live Translate 功能，可为应用添加近乎实时的语音翻译。该功能采用语音到语音流式传输（S2ST），支持连续翻译广播音频并同步生成转录文本。演示中用户能用母语收听全球广播节目，实现无缝的跨语言直播体验。

AI产品 Gemini 3.5 Gemini Live API Google 语音翻译实时翻译

推荐理由：谷歌 API 上新实时语音翻译

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

03:08

03:08

Jeff Dean@JeffDean

Google 在语音翻译领域长期投入，最新推出 Gemini 3.5 Live Translate 模型，支持超过 70 种语言的语音到语音实时翻译。该模型旨在让跨语言对话更自然，已集成到 Google Translate 和 Google AI Studio 的 Live API 中。合作伙伴 Grab 正在利用该技术帮助司机与乘客沟通，展示了实际应用场景。这是 Google 在语音翻译领域的最新进展，有望提升日常应用中的多语言交流体验。

AI产品语音翻译 Gemini 3.5 实时翻译 Google 多语言

推荐理由：Google 把语音翻译推进到新阶段，70+ 语言实时互译对跨国出行、客服、会议场景的团队是直接利好，开发者可以立刻通过 Live API 接入试试。

01:24

01:24

marktechpost@Asif Razzaq

精选

Google 发布 Gemini 3.5 Live Translate，一个支持流式语音到语音翻译的音频模型，覆盖 70 多种语言。该模型通过 Gemini Live API 提供给开发者，并集成到 Google Meet 和翻译应用中。它能够连续生成音频，延迟仅为几秒。

AI模型 Gemini 3.5 Google Gemini Live API 语音翻译流式翻译

推荐理由：70+语言实时语音翻译

6月9日

23:59

23:59

rohanpaul_ai@rohanpaul_ai

76°

Google 发布了 Gemini 3.5 Live Translate，一种实时语音到语音翻译模型。与等待完整句子的传统系统不同，它能在说话人仍在讲话时就开始翻译，通过流式翻译技术预测并更新翻译内容。该模型支持 70 多种语言，延迟仅几秒，并能保留语速、音调和语调。它已通过 Gemini Live API、Google Meet 预览版以及 Android/iOS 上的 Google Translate 向用户推出。

AI产品 Gemini 3.5 实时翻译语音翻译 Google 流式翻译

推荐理由：实时语音翻译终于不再是“等说完再翻”的延迟体验——做跨国会议、直播或外语学习的人可以直接用上，建议试试 Gemini Live API 或 Google Translate 的更新。

23:38

23:38

PolymarketMoney@PolymarketMoney

Google 发布了 Gemini 3.5 Live Translate，这是一项实时语音翻译功能，覆盖 70 多种语言。该功能将集成到 Gemini Live API、AI Studio、Google Translate 和 Google Meet 中。Google 正在测试超过 2000 种语言组合，旨在提升跨语言沟通效率。此举标志着 Google 在 AI 翻译领域的重大进展，尤其适用于多语言会议和实时交流场景。

AI产品实时翻译 Gemini 3.5 语音翻译 Google Meet AI Studio

推荐理由：做跨国沟通或会议翻译的团队可以直接用上，Google 把实时翻译塞进了 Meet 和 Translate，省去第三方工具，值得试试。

23:23

23:23

Google AI Developers@googleaidevs

精选

Gemini 3.5 Live Translate 是谷歌最新的音频模型，支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音，实现近实时的翻译输出，并具备多语言输入、自动语言检测、原生音频处理（保留语调、节奏和音高）以及噪声鲁棒性（在嘈杂环境中过滤背景噪音）等特点。开发者可利用该模型构建更自然的语音交互应用。

AI模型 Gemini 3.5 Live Translate Google 语音翻译多语言低延迟

推荐理由：谷歌新模型，能实时翻译70+语言

5月28日

19:56

19:56IT之家（博客/媒体）

科大讯飞在澳门 BEYOND Expo 2026 上推出 AI 眼镜，定位为“眼前的超级 AI 助理”，售价 4299 元，6 月 15 日开启预售。眼镜仅重 40 克，采用经典眼镜形态，通过 SGS 舒适度认证。核心功能是搭载端到端语音同传大模型，支持 122 种语言翻译，覆盖通话、线上同传、同声传译、面对面翻译、视觉翻译等六大场景。此外，还支持实时提词、AI 助理（GlassClaw）和会议纪要自动生成。产品将大模型能力融入日常佩戴，旨在解决跨语言沟通和演讲痛点。

AI产品 AI 眼镜科大讯飞语音翻译大模型智能助理

推荐理由：科大讯飞把大模型塞进 40 克眼镜里，解决了出国旅行、商务会议中语言不通的痛点，经常出差或做国际业务的用户可以直接关注。

5月15日

10:02

10:02

arXiv cs.AI@Titouan Parcollet, Shucong Zhang, Xianrui Zheng, Rogier C. van Dalen

精选

传统语音翻译系统依赖语音识别和文本翻译两个独立模块，容易产生级联错误。本文提出一种基于LLM的流式语音翻译架构，让模型不仅能输出翻译结果，还能自主判断是否已听到足够音频来输出。该系统通过输入语音与输出文本的自动对齐进行训练，在多个语言对上的翻译质量接近非流式基线，但延迟仅为1-2秒。这项研究解决了现有SpeechLLM系统无法实时流式输出的痛点，使语音翻译更适用于实时应用场景。

论文语音翻译流式处理 SpeechLLM 低延迟实时系统

推荐理由：做实时语音翻译的团队终于有了低延迟方案——延迟降到1-2秒且翻译质量不降，做会议同传或语音助手的开发者可以直接参考。