全部 AI 动态 · AI 热点

6月27日

22:45

Runway ML@runwayml

Runway 在 API 中推出了 Localize ads Recipe，支持通过单一 API 调用翻译静态广告和图形资产。用户只需输入一张广告图像，即可获得任意语言版本的输出。该功能旨在简化多市场广告素材的本地化流程，无需手动重新设计。目前该功能已可通过 Runway API 使用。

AI产品 Runway API 广告本地化多语言翻译

推荐理由：Runway 新出的本地化广告功能，一张图像丢进去，API 直接吐出多语言版本，省去挨个翻译的麻烦。

原文

6月24日

07:34

Mistral AI@MistralAI

Mistral 推出 OCR 4，独立标注员对600多份真实文档进行盲评，涵盖12种以上语言。在所有对比系统中，OCR 4 被优先选择，平均胜率达72%。该结果基于随机排序的双盲测试，标注员无法识别系统来源。

AI模型 Mistral OCR 4 OCR 文档识别多语言

推荐理由：Mistral 的 OCR 4 盲测赢了所有对手，处理多国语言文档很稳，平均胜率72%，值得试试。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

09:11

ElevenLabs@elevenlabsio

ElevenLabs 推出 Music v2 SDK，开发者可通过文本提示生成音乐，人声、乐器和编曲质量相比 v1 显著提升。新版本支持参考匹配现有音轨，实现风格或结构复制。多语言输出功能增强，支持非英语语言生成更自然的音乐。

AI产品 ElevenLabs Music v2 音乐生成 SDK 多语言

推荐理由：ElevenLabs 的 Music v2 SDK 让开发者直接用文字生成音乐，还能参考现有曲子做匹配，多语言效果也不错，做音视频应用很实用。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

02:32

Pika Labs@pika_labs

Pika Labs 通过 MCP 接口推出 Language Swap 技能，允许用户将视频中的语音替换为其他语言，同时保留原声的音色和口型。该功能支持 40 多种语言，可自动生成字幕并选择多种样式。创作者只需一条指令即可让视频中的自己说任何语言，极大降低了多语言内容制作的门槛。目前该功能已在 Pika MCP 中可用。

AI产品 Pika MCP/工具语音克隆视频编辑多语言

推荐理由：做多语言视频内容的创作者终于可以省去重新录制和配音的麻烦——Pika 的 Language Swap 直接克隆你的声音并换语言，还带字幕，做短视频或跨国营销的团队值得立刻试试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

03:08

Jeff Dean@JeffDean

Google 在语音翻译领域长期投入，最新推出 Gemini 3.5 Live Translate 模型，支持超过 70 种语言的语音到语音实时翻译。该模型旨在让跨语言对话更自然，已集成到 Google Translate 和 Google AI Studio 的 Live API 中。合作伙伴 Grab 正在利用该技术帮助司机与乘客沟通，展示了实际应用场景。这是 Google 在语音翻译领域的最新进展，有望提升日常应用中的多语言交流体验。

AI产品语音翻译 Gemini 3.5 实时翻译 Google 多语言

推荐理由：Google 把语音翻译推进到新阶段，70+ 语言实时互译对跨国出行、客服、会议场景的团队是直接利好，开发者可以立刻通过 Live API 接入试试。

原文

00:46

Philipp Schmid@_philschmid

83°

Google 发布了基于 Gemini 3.5 的实时翻译功能，支持 70 多种语言和 2000 多个语言对。该功能能够自然翻译语音，在嘈杂环境中也能正常工作，并且与说话者保持同步，无延迟和尴尬停顿。它还能自动检测正在使用的语言。目前已在 Google Translate（Android 和 iOS）、Gemini API（公开预览）和 Google Meet（私人预览）中可用。这被认为是消除语言障碍的重要一步。

AI产品 Gemini 3.5 实时翻译 Google Translate 语言障碍多语言

推荐理由：Google 用 Gemini 3.5 把实时翻译做到了实用级别，70+语言、无延迟、抗噪，跨语言沟通的团队和旅行者可以直接在 Google Translate 里体验，语言障碍的终结可能真的开始了。

原文

6月9日

23:23

Google AI Developers@googleaidevs

精选

Gemini 3.5 Live Translate 是谷歌最新的音频模型，支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音，实现近实时的翻译输出，并具备多语言输入、自动语言检测、原生音频处理（保留语调、节奏和音高）以及噪声鲁棒性（在嘈杂环境中过滤背景噪音）等特点。开发者可利用该模型构建更自然的语音交互应用。

AI模型 Gemini 3.5 Live Translate Google 语音翻译多语言低延迟

推荐理由：谷歌新模型，能实时翻译70+语言

原文

6月3日

04:44

OpenRouter@OpenRouterAI

微软发布MAI-Voice-2，一款支持15种语言的情感可控文本转语音模型，可表达兴奋、尴尬、耳语等情绪，并在长文本中保持稳定的说话人身份。该模型与MAI-Transcribe-1.5语音识别模型搭配使用，已在OpenRouter上线。这为多语言内容创作、有声读物、语音助手等场景提供了更自然、富有表现力的语音合成能力。

AI模型微软 MAI-Voice-2 文本转语音情感控制多语言

推荐理由：做多语言内容或语音应用的团队终于有了一个能控制情绪、长文本不跑调的TTS模型，直接上OpenRouter就能用，值得试试。

原文

5月30日

04:15

Greg Brockman@gdb

72°

OpenAI 推出全新模型 gpt-realtime-translate，专为实时语音翻译设计。该模型支持 70 多种输入语言，并能将语音直接翻译成 13 种目标语言的语音输出。与通用大模型不同，这是针对特定场景优化的专用模型，已在智能眼镜上运行。这一发布标志着 AI 翻译从文本处理向端到端语音翻译的跨越，对跨国交流、旅游、商务等场景有重大意义。

AI产品 OpenAI 实时翻译语音模型智能眼镜多语言

推荐理由：实时语音翻译终于有了专用模型，做跨国业务、旅行或智能硬件的团队可以直接用起来，省去多步转写的麻烦。

原文

5月29日

21:32

Greg Brockman@gdb

精选72°

OpenAI 员工 Michelle Pokrass 宣布今日发布了新版 GPT-5.5 Instant 模型。旧版模型被认为过于“子弹头”式（即过于激进/固执），新版在谄媚倾向、事实准确性和多语言性能三个关键维度上做了改进。该模型已上线 ChatGPT，团队欢迎用户反馈。这次更新表明 OpenAI 在持续调优模型行为，尤其关注减少谄媚和提升可靠性。

AI产品 ChatGPT GPT-5.5 Instant 模型更新事实性多语言

推荐理由：如果你在用 ChatGPT 做事实核查或多语言任务，新版 5.5 Instant 值得一试——它直接解决了旧版过于固执和谄媚的问题，对需要准确答案的开发者来说是个实用升级。

原文

10:01

小互@imxiaohu

76°

ElevenLabs 发布了 Dubbing V2，这是一款端到端的 AI 配音模型，彻底改变了传统配音流程。它不再依赖“先转写、再翻译、最后合成”的三段式拼接，而是直接基于原始表演建模声音，将音色、情绪和演绎风格完整保留并穿越到每一种目标语言中。这意味着同一个人开口讲六国语言，听上去仍是本人，连呼吸节奏和情绪都对得上。该模型支持 90 多种语言和口音，可输入音频、视频或文字，自动完成声音克隆、同步感知翻译和措辞本地化，无需手动设置。官方演示展示了在荒岛求生、财务对白和童话故事等场景下的无缝切换效果。

AI产品 ElevenLabs AI配音端到端模型多语言声音克隆

推荐理由：做视频本地化、游戏配音或跨国内容创作的团队，终于有了能保留原片表演灵魂的配音工具——不用再忍受机械翻译和音色断裂，直接上传视频就能出成品，建议立刻试一下。

原文

01:03

Y Combinator@ycombinator

KugelAudio 推出了支持 30 多种语言和方言的多语言语音 AI，用户可以在自己的 Kubernetes 集群中本地部署。该 AI 能自然处理电话号码、电子邮件和混合语言文本，完全在本地运行，无需依赖云端服务。这对于需要数据隐私和低延迟的语音应用场景具有重要意义。

AI产品语音 AI 多语言 Kubernetes 本地部署 KugelAudio

推荐理由：对于需要本地部署语音 AI 的团队，KugelAudio 解决了数据隐私和语言多样性的痛点，做语音应用或客服系统的开发者可以直接在自己的集群中试试。

原文

5月28日

18:09

AI Will@FinanceYF5

Anthropic 宣布 Claude 移动端语音模式即将升级，新增支持 18 种语言，用户可随时无缝切换语言。每种语言将配备 1-2 个新声音，界面也将焕然一新，并新增“按住说话”功能。底层由 Claude Haiku 4.5 驱动，但仍是文本转语音模式。这一升级将大幅提升非英语用户的语音交互体验。

AI产品 Claude 语音模式多语言移动端 Anthropic

推荐理由：Claude 的语音模式终于覆盖更多语言，非英语用户可以直接用母语与 AI 对话，做多语言客服或跨国团队协作的开发者值得关注。

原文

18:08

AI Will@FinanceYF5

Anthropic 正在为 Claude 移动应用升级语音模式，新增 18 种语言支持，并允许用户实时切换语言。每个语言将配备 1-2 种新语音，语音模式界面也将焕然一新。新增的“按下说话”功能让交互更便捷。该功能由 Claude Haiku 4.5 驱动，但文本转语音（TTS）功能可能稍后推出。

AI产品 Claude 语音模式多语言移动应用 Anthropic

推荐理由：多语言语音交互的扩展让 Claude 对非英语用户更友好，做国际化产品、多语言客服或语音应用的团队值得关注，可以直接在移动端体验新功能。

原文

5月26日

16:18

向阳乔木@vista8

一位用户用中文克隆的声音，将经典电影英文台词翻译成日语、法语、德语，并通过开源TTS模型合成语音。结果声音自然，情绪传递到位，支持14种语言。该模型可本地部署，质量不错，适合制作AI播客、睡前故事、广告宣传等。试玩地址已公开，开源社区又多了一个高质量TTS选项。

AI产品 TTS/语音合成开源/仓库多语言 AI播客本地部署

推荐理由：开源TTS又多了一个高质量选项，做多语言语音合成、AI播客或本地部署的开发者可以直接试玩，效果自然到让人惊喜。

原文

5月22日

06:20

阿里通义 Qwen@Alibaba_Qwen

76°

阿里通义千问团队发布了 Qwen3.7-Max 模型，在编程智能体基准测试中表现强劲，同时在通用智能体能力上也有大幅提升。该模型在最具挑战性的推理基准测试中展现出卓越实力，并在通用能力和多语言处理方面脱颖而出。这标志着国产大模型在智能体领域的重要进展。

AI模型 Qwen3.7-Max 编程智能体推理模型多语言阿里通义千问

推荐理由：Qwen3.7-Max 在编程和通用智能体任务上的大幅提升，对做 AI 编程工具和智能体应用的开发者是直接利好，建议关注其实际效果。

原文

5月21日

20:19

Hunyuan@TXhunyuan

腾讯混元发布 Hy-MT2 开源多语言翻译模型，支持 33 种语言无缝互译。7B 和 30B-A3B 版本在多项翻译任务上超越参数大数十倍的模型，轻量 1.8B 版本甚至优于微软等商业 API。模型采用腾讯 AngelSlim 1.25-bit 极致量化，仅需 440MB 存储，可在主流移动芯片上本地推理，速度比 Hy-MT1.5 快 1.5 倍。项目已在 GitHub、Hugging Face 等平台开源。

AI模型开源/仓库翻译模型腾讯混元量化多语言

推荐理由：做多语言翻译的开发者终于有了能本地跑的开源模型——Hy-MT2 的 1.8B 版本比微软 API 还强，且量化后仅 440MB，手机芯片就能推理，建议直接下载试试。

原文

07:59

ElevenLabs@elevenlabsio

ElevenLabs 发布了一个名为“爱因斯坦”的语音 AI 智能体，旨在展示语音 AI 如何提升教育体验。该智能体支持多语言交互，使学习更生动、更具互动性。用户可以通过提供的链接直接体验。这一演示强调了语音 AI 在打破语言障碍、提供个性化学习方面的潜力，尤其适合教育场景。

AI产品语音AI 教育多语言智能体 ElevenLabs

推荐理由：教育工作者和在线学习平台可以直观感受语音 AI 如何让课程更生动、更包容，建议直接试用这个智能体，看看它能否融入你的教学场景。

原文

07:59

Google Gemini App@GeminiApp

Google 的 Gemini 助手现已扩展至超过 230 个国家和地区，支持 70 多种语言，成为全球覆盖范围最广的 AI 助手。这一里程碑意味着更多用户可以在日常生活中使用 Gemini 进行对话、查询和任务辅助。Gemini 的广泛可用性将推动 AI 助手的普及，并可能改变用户对智能助手的依赖习惯。

AI产品 Gemini AI 助手全球覆盖多语言 Google

推荐理由：Gemini 的全球覆盖让更多地区的用户能直接使用 AI 助手，日常需要智能助手的人群可以试试看是否比现有选择更好用。

原文

5月14日

01:10

Noam Shazeer@NoamShazeer

Google 发布了 Gemini 3.1 Flash Live 模型，专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先，支持多语言，已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体，完成复杂任务。

AI模型 Gemini 语音智能体函数调用多语言推理模型

推荐理由：语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先，做语音交互的团队可以直接上手试试。

原文