22:45Runway ML@runwaymlRunway 在 API 中推出了 Localize ads Recipe,支持通过单一 API 调用翻译静态广告和图形资产。用户只需输入一张广告图像,即可获得任意语言版本的输出。该功能旨在简化多市场广告素材的本地化流程,无需手动重新设计。目前该功能已可通过 Runway API 使用。AI产品RunwayAPI广告本地化多语言翻译推荐理由:Runway 新出的本地化广告功能,一张图像丢进去,API 直接吐出多语言版本,省去挨个翻译的麻烦。原文
07:34Mistral AI@MistralAIMistral 推出 OCR 4,独立标注员对600多份真实文档进行盲评,涵盖12种以上语言。在所有对比系统中,OCR 4 被优先选择,平均胜率达72%。该结果基于随机排序的双盲测试,标注员无法识别系统来源。AI模型MistralOCR 4OCR文档识别多语言推荐理由:Mistral 的 OCR 4 盲测赢了所有对手,处理多国语言文档很稳,平均胜率72%,值得试试。原文
09:11ElevenLabs@elevenlabsioElevenLabs 推出 Music v2 SDK,开发者可通过文本提示生成音乐,人声、乐器和编曲质量相比 v1 显著提升。新版本支持参考匹配现有音轨,实现风格或结构复制。多语言输出功能增强,支持非英语语言生成更自然的音乐。AI产品ElevenLabsMusic v2音乐生成SDK多语言推荐理由:ElevenLabs 的 Music v2 SDK 让开发者直接用文字生成音乐,还能参考现有曲子做匹配,多语言效果也不错,做音视频应用很实用。原文
02:32Pika Labs@pika_labsPika Labs 通过 MCP 接口推出 Language Swap 技能,允许用户将视频中的语音替换为其他语言,同时保留原声的音色和口型。该功能支持 40 多种语言,可自动生成字幕并选择多种样式。创作者只需一条指令即可让视频中的自己说任何语言,极大降低了多语言内容制作的门槛。目前该功能已在 Pika MCP 中可用。AI产品PikaMCP/工具语音克隆视频编辑多语言推荐理由:做多语言视频内容的创作者终于可以省去重新录制和配音的麻烦——Pika 的 Language Swap 直接克隆你的声音并换语言,还带字幕,做短视频或跨国营销的团队值得立刻试试。原文
03:08Jeff Dean@JeffDeanGoogle 在语音翻译领域长期投入,最新推出 Gemini 3.5 Live Translate 模型,支持超过 70 种语言的语音到语音实时翻译。该模型旨在让跨语言对话更自然,已集成到 Google Translate 和 Google AI Studio 的 Live API 中。合作伙伴 Grab 正在利用该技术帮助司机与乘客沟通,展示了实际应用场景。这是 Google 在语音翻译领域的最新进展,有望提升日常应用中的多语言交流体验。AI产品语音翻译Gemini 3.5实时翻译Google多语言推荐理由:Google 把语音翻译推进到新阶段,70+ 语言实时互译对跨国出行、客服、会议场景的团队是直接利好,开发者可以立刻通过 Live API 接入试试。原文
00:46Philipp Schmid@_philschmid83°Google 发布了基于 Gemini 3.5 的实时翻译功能,支持 70 多种语言和 2000 多个语言对。该功能能够自然翻译语音,在嘈杂环境中也能正常工作,并且与说话者保持同步,无延迟和尴尬停顿。它还能自动检测正在使用的语言。目前已在 Google Translate(Android 和 iOS)、Gemini API(公开预览)和 Google Meet(私人预览)中可用。这被认为是消除语言障碍的重要一步。AI产品Gemini 3.5实时翻译Google Translate语言障碍多语言推荐理由:Google 用 Gemini 3.5 把实时翻译做到了实用级别,70+语言、无延迟、抗噪,跨语言沟通的团队和旅行者可以直接在 Google Translate 里体验,语言障碍的终结可能真的开始了。原文
23:23Google AI Developers@googleaidevs精选Gemini 3.5 Live Translate 是谷歌最新的音频模型,支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音,实现近实时的翻译输出,并具备多语言输入、自动语言检测、原生音频处理(保留语调、节奏和音高)以及噪声鲁棒性(在嘈杂环境中过滤背景噪音)等特点。开发者可利用该模型构建更自然的语音交互应用。AI模型Gemini 3.5 Live TranslateGoogle语音翻译多语言低延迟推荐理由:谷歌新模型,能实时翻译70+语言原文
04:44OpenRouter@OpenRouterAI微软发布MAI-Voice-2,一款支持15种语言的情感可控文本转语音模型,可表达兴奋、尴尬、耳语等情绪,并在长文本中保持稳定的说话人身份。该模型与MAI-Transcribe-1.5语音识别模型搭配使用,已在OpenRouter上线。这为多语言内容创作、有声读物、语音助手等场景提供了更自然、富有表现力的语音合成能力。AI模型微软MAI-Voice-2文本转语音情感控制多语言推荐理由:做多语言内容或语音应用的团队终于有了一个能控制情绪、长文本不跑调的TTS模型,直接上OpenRouter就能用,值得试试。原文
04:15Greg Brockman@gdb72°OpenAI 推出全新模型 gpt-realtime-translate,专为实时语音翻译设计。该模型支持 70 多种输入语言,并能将语音直接翻译成 13 种目标语言的语音输出。与通用大模型不同,这是针对特定场景优化的专用模型,已在智能眼镜上运行。这一发布标志着 AI 翻译从文本处理向端到端语音翻译的跨越,对跨国交流、旅游、商务等场景有重大意义。AI产品OpenAI实时翻译语音模型智能眼镜多语言10 个信源在谈推荐理由:实时语音翻译终于有了专用模型,做跨国业务、旅行或智能硬件的团队可以直接用起来,省去多步转写的麻烦。原文
21:32Greg Brockman@gdb精选72°OpenAI 员工 Michelle Pokrass 宣布今日发布了新版 GPT-5.5 Instant 模型。旧版模型被认为过于“子弹头”式(即过于激进/固执),新版在谄媚倾向、事实准确性和多语言性能三个关键维度上做了改进。该模型已上线 ChatGPT,团队欢迎用户反馈。这次更新表明 OpenAI 在持续调优模型行为,尤其关注减少谄媚和提升可靠性。AI产品ChatGPTGPT-5.5 Instant模型更新事实性多语言10 个信源在谈推荐理由:如果你在用 ChatGPT 做事实核查或多语言任务,新版 5.5 Instant 值得一试——它直接解决了旧版过于固执和谄媚的问题,对需要准确答案的开发者来说是个实用升级。原文
10:01小互@imxiaohu76°ElevenLabs 发布了 Dubbing V2,这是一款端到端的 AI 配音模型,彻底改变了传统配音流程。它不再依赖“先转写、再翻译、最后合成”的三段式拼接,而是直接基于原始表演建模声音,将音色、情绪和演绎风格完整保留并穿越到每一种目标语言中。这意味着同一个人开口讲六国语言,听上去仍是本人,连呼吸节奏和情绪都对得上。该模型支持 90 多种语言和口音,可输入音频、视频或文字,自动完成声音克隆、同步感知翻译和措辞本地化,无需手动设置。官方演示展示了在荒岛求生、财务对白和童话故事等场景下的无缝切换效果。AI产品ElevenLabsAI配音端到端模型多语言声音克隆推荐理由:做视频本地化、游戏配音或跨国内容创作的团队,终于有了能保留原片表演灵魂的配音工具——不用再忍受机械翻译和音色断裂,直接上传视频就能出成品,建议立刻试一下。原文
01:03Y Combinator@ycombinatorKugelAudio 推出了支持 30 多种语言和方言的多语言语音 AI,用户可以在自己的 Kubernetes 集群中本地部署。该 AI 能自然处理电话号码、电子邮件和混合语言文本,完全在本地运行,无需依赖云端服务。这对于需要数据隐私和低延迟的语音应用场景具有重要意义。AI产品语音 AI多语言Kubernetes本地部署KugelAudio推荐理由:对于需要本地部署语音 AI 的团队,KugelAudio 解决了数据隐私和语言多样性的痛点,做语音应用或客服系统的开发者可以直接在自己的集群中试试。原文
18:09AI Will@FinanceYF5Anthropic 宣布 Claude 移动端语音模式即将升级,新增支持 18 种语言,用户可随时无缝切换语言。每种语言将配备 1-2 个新声音,界面也将焕然一新,并新增“按住说话”功能。底层由 Claude Haiku 4.5 驱动,但仍是文本转语音模式。这一升级将大幅提升非英语用户的语音交互体验。AI产品Claude语音模式多语言移动端Anthropic10 个信源在谈推荐理由:Claude 的语音模式终于覆盖更多语言,非英语用户可以直接用母语与 AI 对话,做多语言客服或跨国团队协作的开发者值得关注。原文
18:08AI Will@FinanceYF5Anthropic 正在为 Claude 移动应用升级语音模式,新增 18 种语言支持,并允许用户实时切换语言。每个语言将配备 1-2 种新语音,语音模式界面也将焕然一新。新增的“按下说话”功能让交互更便捷。该功能由 Claude Haiku 4.5 驱动,但文本转语音(TTS)功能可能稍后推出。AI产品Claude语音模式多语言移动应用Anthropic10 个信源在谈推荐理由:多语言语音交互的扩展让 Claude 对非英语用户更友好,做国际化产品、多语言客服或语音应用的团队值得关注,可以直接在移动端体验新功能。原文
16:18向阳乔木@vista8一位用户用中文克隆的声音,将经典电影英文台词翻译成日语、法语、德语,并通过开源TTS模型合成语音。结果声音自然,情绪传递到位,支持14种语言。该模型可本地部署,质量不错,适合制作AI播客、睡前故事、广告宣传等。试玩地址已公开,开源社区又多了一个高质量TTS选项。AI产品TTS/语音合成开源/仓库多语言AI播客本地部署推荐理由:开源TTS又多了一个高质量选项,做多语言语音合成、AI播客或本地部署的开发者可以直接试玩,效果自然到让人惊喜。原文
06:20阿里通义 Qwen@Alibaba_Qwen76°阿里通义千问团队发布了 Qwen3.7-Max 模型,在编程智能体基准测试中表现强劲,同时在通用智能体能力上也有大幅提升。该模型在最具挑战性的推理基准测试中展现出卓越实力,并在通用能力和多语言处理方面脱颖而出。这标志着国产大模型在智能体领域的重要进展。AI模型Qwen3.7-Max编程智能体推理模型多语言阿里通义千问推荐理由:Qwen3.7-Max 在编程和通用智能体任务上的大幅提升,对做 AI 编程工具和智能体应用的开发者是直接利好,建议关注其实际效果。原文
20:19Hunyuan@TXhunyuan腾讯混元发布 Hy-MT2 开源多语言翻译模型,支持 33 种语言无缝互译。7B 和 30B-A3B 版本在多项翻译任务上超越参数大数十倍的模型,轻量 1.8B 版本甚至优于微软等商业 API。模型采用腾讯 AngelSlim 1.25-bit 极致量化,仅需 440MB 存储,可在主流移动芯片上本地推理,速度比 Hy-MT1.5 快 1.5 倍。项目已在 GitHub、Hugging Face 等平台开源。AI模型开源/仓库翻译模型腾讯混元量化多语言推荐理由:做多语言翻译的开发者终于有了能本地跑的开源模型——Hy-MT2 的 1.8B 版本比微软 API 还强,且量化后仅 440MB,手机芯片就能推理,建议直接下载试试。原文
07:59ElevenLabs@elevenlabsioElevenLabs 发布了一个名为“爱因斯坦”的语音 AI 智能体,旨在展示语音 AI 如何提升教育体验。该智能体支持多语言交互,使学习更生动、更具互动性。用户可以通过提供的链接直接体验。这一演示强调了语音 AI 在打破语言障碍、提供个性化学习方面的潜力,尤其适合教育场景。AI产品语音AI教育多语言智能体ElevenLabs推荐理由:教育工作者和在线学习平台可以直观感受语音 AI 如何让课程更生动、更包容,建议直接试用这个智能体,看看它能否融入你的教学场景。原文
07:59Google Gemini App@GeminiAppGoogle 的 Gemini 助手现已扩展至超过 230 个国家和地区,支持 70 多种语言,成为全球覆盖范围最广的 AI 助手。这一里程碑意味着更多用户可以在日常生活中使用 Gemini 进行对话、查询和任务辅助。Gemini 的广泛可用性将推动 AI 助手的普及,并可能改变用户对智能助手的依赖习惯。AI产品GeminiAI 助手全球覆盖多语言Google推荐理由:Gemini 的全球覆盖让更多地区的用户能直接使用 AI 助手,日常需要智能助手的人群可以试试看是否比现有选择更好用。原文
01:10Noam Shazeer@NoamShazeerGoogle 发布了 Gemini 3.1 Flash Live 模型,专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先,支持多语言,已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体,完成复杂任务。AI模型Gemini语音智能体函数调用多语言推理模型推荐理由:语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先,做语音交互的团队可以直接上手试试。原文