10:40arXiv: DeepSeek@Camilo Chacón SartoriEMPATH是一个多语言审计-法官基准,用于评估情感支持聊天机器人的安全性。该基准使用审计模型模拟求助用户,基于140个种子指令和34个人设生成多轮对话,法官模型从19个指标(分属五个维度)评分。基准在墨西哥西班牙语和美国英语上构建,研究发现标准评分在19个指标中的10个上存在膨胀,校准后恢复了区分度。在三个前沿模型(含一个开源模型)上测试,聚合分数差异在0.74分内,但具体指标差异可达6分。运行间可靠性差,deepseek-v4-pro在温度0下每次运行生成不同对话。AI模型EMPATH情感支持聊天机器人AI安全多语言基准测试推荐理由:这个新基准EMPATH专测情感支持聊天机器人的安全漏洞,用AI模拟求助者进行多语言多轮对话,发现主流模型评分虚高且不稳定,值得一做。原文
22:45Runway ML@runwaymlRunway 在 API 中推出了 Localize ads Recipe,支持通过单一 API 调用翻译静态广告和图形资产。用户只需输入一张广告图像,即可获得任意语言版本的输出。该功能旨在简化多市场广告素材的本地化流程,无需手动重新设计。目前该功能已可通过 Runway API 使用。AI产品RunwayAPI广告本地化多语言翻译推荐理由:Runway 新出的本地化广告功能,一张图像丢进去,API 直接吐出多语言版本,省去挨个翻译的麻烦。原文
07:34Mistral AI@MistralAIMistral 推出 OCR 4,独立标注员对600多份真实文档进行盲评,涵盖12种以上语言。在所有对比系统中,OCR 4 被优先选择,平均胜率达72%。该结果基于随机排序的双盲测试,标注员无法识别系统来源。AI模型MistralOCR 4OCR文档识别多语言推荐理由:Mistral 的 OCR 4 盲测赢了所有对手,处理多国语言文档很稳,平均胜率72%,值得试试。原文
11:31arXiv cs.AI@Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii BabaevLiveCodeBench (LCB) 是广泛采用的代码生成基准,但仅限Python。新基准Multi-LCB将LCB任务转化为12种编程语言,包括Python、C++、Java等,保持原始污染控制和评估协议。研究者在Multi-LCB上评估了24个LLM,发现模型存在Python过拟合、语言特定污染和跨语言性能差异。Multi-LCB为多语言代码评估提供了严格的新基准,直接暴露了当前LLM在Python之外的短板。AI模型Multi-LCBLiveCodeBench代码生成多语言基准测试推荐理由:想测AI写代码的真本事?别只看Python了。Multi-LCB覆盖12种语言,一测就知道模型是不是只会Python,结果可能让你意外。原文
09:11ElevenLabs@elevenlabsioElevenLabs 推出 Music v2 SDK,开发者可通过文本提示生成音乐,人声、乐器和编曲质量相比 v1 显著提升。新版本支持参考匹配现有音轨,实现风格或结构复制。多语言输出功能增强,支持非英语语言生成更自然的音乐。AI产品ElevenLabsMusic v2音乐生成SDK多语言推荐理由:ElevenLabs 的 Music v2 SDK 让开发者直接用文字生成音乐,还能参考现有曲子做匹配,多语言效果也不错,做音视频应用很实用。原文
16:25IT之家(博客/媒体)精选微信支付 AI 接入工具箱 2.0 全面支持中、英、日、韩、法等 9 种语言,全球开发者可用母语对接。2.0 版本覆盖微信支付全线产品知识,新增技术专家与金融级研发专家能力,实现报错定位修复闭环及代码质量审查。新增 CLI 动态排障,开发者可通过自然语言实时查询支付单状态,无需切换环境。文档转为 Mermaid 格式后,Token 消耗比原始 HTML 文档降低 50%,并支持自动同步官网更新。AI产品微信支付AI 接入工具箱支付接入多语言1 个信源在谈推荐理由:微信支付更新了 AI 接入工具箱,现在能直接用中文等9种语言对接,Token 省一半,还加了自动排障和代码审查,开发接入更方便。原文
02:32Pika Labs@pika_labsPika Labs 通过 MCP 接口推出 Language Swap 技能,允许用户将视频中的语音替换为其他语言,同时保留原声的音色和口型。该功能支持 40 多种语言,可自动生成字幕并选择多种样式。创作者只需一条指令即可让视频中的自己说任何语言,极大降低了多语言内容制作的门槛。目前该功能已在 Pika MCP 中可用。AI产品PikaMCP/工具语音克隆视频编辑多语言推荐理由:做多语言视频内容的创作者终于可以省去重新录制和配音的麻烦——Pika 的 Language Swap 直接克隆你的声音并换语言,还带字幕,做短视频或跨国营销的团队值得立刻试试。原文
04:32Hugging Face: Blog(博客/媒体)ServiceNow AI 发布了一项针对前沿自动语音识别(ASR)模型在代码切换语音上的基准测试。代码切换指说话者在同一句话中混合使用两种语言,这在多语言用户中很常见。测试发现,当前最先进的ASR模型在处理这种混合语言时表现不佳,错误率显著高于单语言场景。该研究强调了构建能理解双语用户的语音代理的挑战,并提供了公开基准供开发者评估和改进模型。这对于开发面向多语言市场的语音助手和客服系统至关重要。论文语音代理ASR代码切换多语言基准测试1 个信源在谈推荐理由:做语音助手或客服系统的团队会发现,当前ASR模型在双语用户面前漏洞百出——代码切换场景的错误率远高于单语言,这个基准测试直接暴露了痛点,建议点开看看你的模型能否过关。原文
03:08Jeff Dean@JeffDeanGoogle 在语音翻译领域长期投入,最新推出 Gemini 3.5 Live Translate 模型,支持超过 70 种语言的语音到语音实时翻译。该模型旨在让跨语言对话更自然,已集成到 Google Translate 和 Google AI Studio 的 Live API 中。合作伙伴 Grab 正在利用该技术帮助司机与乘客沟通,展示了实际应用场景。这是 Google 在语音翻译领域的最新进展,有望提升日常应用中的多语言交流体验。AI产品语音翻译Gemini 3.5实时翻译Google多语言推荐理由:Google 把语音翻译推进到新阶段,70+ 语言实时互译对跨国出行、客服、会议场景的团队是直接利好,开发者可以立刻通过 Live API 接入试试。原文
01:33Decoder@Matthias BastianGoogle 发布了 Gemini 3.5 Live Translate,这是一个音频模型,支持超过70种语言的实时语音翻译。系统无需等待句子结束即可连续翻译,并声称能保留说话者的语调、语速和音高。在 Google Meet 中,语言支持从5种跃升至70多种。这标志着实时翻译技术的重要进步,尤其对跨国会议和多语言沟通场景有重大影响。AI产品实时翻译语音模型Google MeetGemini 3.5多语言3 个信源在谈推荐理由:跨国团队和频繁开会的用户终于有了靠谱的实时翻译工具——Gemini 3.5 不仅支持70+语言,还能保留说话者的语气和节奏,建议在 Google Meet 中直接体验。原文
00:46Philipp Schmid@_philschmid83°Google 发布了基于 Gemini 3.5 的实时翻译功能,支持 70 多种语言和 2000 多个语言对。该功能能够自然翻译语音,在嘈杂环境中也能正常工作,并且与说话者保持同步,无延迟和尴尬停顿。它还能自动检测正在使用的语言。目前已在 Google Translate(Android 和 iOS)、Gemini API(公开预览)和 Google Meet(私人预览)中可用。这被认为是消除语言障碍的重要一步。AI产品Gemini 3.5实时翻译Google Translate语言障碍多语言推荐理由:Google 用 Gemini 3.5 把实时翻译做到了实用级别,70+语言、无延迟、抗噪,跨语言沟通的团队和旅行者可以直接在 Google Translate 里体验,语言障碍的终结可能真的开始了。原文
23:36IT之家(博客/媒体)76°谷歌发布实时语音互译音频模型 Gemini 3.5 Live Translate,可自动识别70多种语言并生成保留说话者语调、语速和音高的自然翻译语音。该模型在等待上下文和即时翻译之间取得平衡,避免传统轮流翻译的尴尬停顿,仅比说话者慢几秒。即日起陆续登陆谷歌翻译App、Gemini Live API、Google AI Studio和Google Meet等产品。普通用户通过Android和iOS版谷歌翻译即可使用,Android还将推出“聆听模式”,用户可像接电话一样将手机贴耳收听翻译。AI产品谷歌Gemini 3.5 Live Translate实时语音翻译多语言翻译App推荐理由:跨语言交流的痛点终于被解决了——Gemini 3.5 Live Translate 让实时翻译不再尴尬停顿,做国际会议、多语言直播或海外业务的团队可以直接在谷歌翻译 App 里体验,建议试试。原文
23:23Google AI Developers@googleaidevs精选Gemini 3.5 Live Translate 是谷歌最新的音频模型,支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音,实现近实时的翻译输出,并具备多语言输入、自动语言检测、原生音频处理(保留语调、节奏和音高)以及噪声鲁棒性(在嘈杂环境中过滤背景噪音)等特点。开发者可利用该模型构建更自然的语音交互应用。AI模型Gemini 3.5 Live TranslateGoogle语音翻译多语言低延迟推荐理由:谷歌新模型,能实时翻译70+语言原文
17:03marktechpost@Asif Razzaq精选微软 AI 发布了其自研语音转文字模型 MAI-Transcribe-1.5,这是该系列的第二代。该模型支持 43 种语言,在 Artificial Analysis 排行榜上词错误率低至 2.4%,在 FLEURS 基准测试中达到最佳精度。它引入了关键词(实体)偏置功能,可针对特定领域术语提升识别准确率。长音频转录速度提升高达 5 倍,1 小时音频可在 15 秒内完成转录。该模型已在 Azure AI Foundry 中正式可用。AI模型语音识别微软MAI-Transcribe-1.5Azure AI Foundry多语言推荐理由:语音转文字场景的开发者终于有了微软官方的强力选项——MAI-Transcribe-1.5 在精度和速度上双双突破,做会议转录、客服质检或多语言内容处理的团队可以直接在 Azure 上试用,省去自建模型的麻烦。原文
09:26arXiv cs.AI@Yang Zhang, Xiao Fei, Amr Mohamed, Sarah Almeida Carneiro, Mersin Konomi, Mingmeng Geng, Ahmed Asaad, Guokan Shang, Michalis Vazirgiannis这篇论文研究了大型语言模型在回答文化相关问题时,使用英语还是本地语言更能获取文化知识。现有评估存在两个局限:模板化问题不自然,且准确率混淆了语言能力和知识访问。作者构建了控制框架,使用真实文化问题,通过项目反应理论模型分离语言能力和知识访问。在13个地区、约80个模型上发现,英语在文化无关问题上表现更好,但控制语言能力后,本地语言在文化知识访问上普遍有优势。这种优势在原始准确率中被掩盖,但在前沿、区域对齐或语言适配模型中更明显。结论是,本地语言表现弱不意味着文化知识弱,而是语言能力限制了访问。论文大语言模型多语言文化知识评估框架项目反应理论推荐理由:这篇论文揭示了多语言AI评估中的一个关键误区——本地语言表现差可能不是知识缺失,而是语言能力瓶颈。做跨文化NLP或本地化模型的团队,看完会重新理解评测指标。原文
15:55marktechpost@Asif Razzaq精选NVIDIA发布了Nemotron 3.5 ASR,一个600M参数的流式语音识别模型。该模型采用cache-aware架构,可从单个检查点实时转录40种语言-区域。它针对低延迟场景优化,支持多种语言的实时语音转文字。AI模型Nemotron 3.5 ASRNVIDIA语音识别流式模型多语言10 个信源在谈推荐理由:600M模型转40语言实时原文
04:44OpenRouter@OpenRouterAI微软发布MAI-Voice-2,一款支持15种语言的情感可控文本转语音模型,可表达兴奋、尴尬、耳语等情绪,并在长文本中保持稳定的说话人身份。该模型与MAI-Transcribe-1.5语音识别模型搭配使用,已在OpenRouter上线。这为多语言内容创作、有声读物、语音助手等场景提供了更自然、富有表现力的语音合成能力。AI模型微软MAI-Voice-2文本转语音情感控制多语言推荐理由:做多语言内容或语音应用的团队终于有了一个能控制情绪、长文本不跑调的TTS模型,直接上OpenRouter就能用,值得试试。原文
12:04arXiv cs.AI@Deokhyung Kang, Hyounghun Kim, Gary Geunbae Lee推理语言模型在复杂推理任务上表现优异,但在非英语输入上仍存在多语言推理差距,主要原因是语言理解失败。英语翻译可以缓解这一问题,但并非所有输入都需要翻译。为此,研究者提出 Luar(语言理解边界感知强化学习框架),训练模型在直接理解不可靠时选择性调用翻译。在多项多语言推理基准测试中,Luar 优于标准 GRPO 等方法,尤其在低资源语言上提升显著。该框架能避免不必要的翻译,并泛化到未见过的低资源语言。项目代码已开源。论文推理模型多语言强化学习翻译开源/仓库推荐理由:多语言推理场景下,翻译不是越多越好——Luar 教会模型在「不懂的时候才翻」,做多语言 NLP 或低资源语言应用的团队可以直接用这个框架来提升推理效率。原文
04:15Greg Brockman@gdb72°OpenAI 推出全新模型 gpt-realtime-translate,专为实时语音翻译设计。该模型支持 70 多种输入语言,并能将语音直接翻译成 13 种目标语言的语音输出。与通用大模型不同,这是针对特定场景优化的专用模型,已在智能眼镜上运行。这一发布标志着 AI 翻译从文本处理向端到端语音翻译的跨越,对跨国交流、旅游、商务等场景有重大意义。AI产品OpenAI实时翻译语音模型智能眼镜多语言10 个信源在谈推荐理由:实时语音翻译终于有了专用模型,做跨国业务、旅行或智能硬件的团队可以直接用起来,省去多步转写的麻烦。原文
21:32Greg Brockman@gdb精选72°OpenAI 员工 Michelle Pokrass 宣布今日发布了新版 GPT-5.5 Instant 模型。旧版模型被认为过于“子弹头”式(即过于激进/固执),新版在谄媚倾向、事实准确性和多语言性能三个关键维度上做了改进。该模型已上线 ChatGPT,团队欢迎用户反馈。这次更新表明 OpenAI 在持续调优模型行为,尤其关注减少谄媚和提升可靠性。AI产品ChatGPTGPT-5.5 Instant模型更新事实性多语言10 个信源在谈推荐理由:如果你在用 ChatGPT 做事实核查或多语言任务,新版 5.5 Instant 值得一试——它直接解决了旧版过于固执和谄媚的问题,对需要准确答案的开发者来说是个实用升级。原文
10:01小互@imxiaohu76°ElevenLabs 发布了 Dubbing V2,这是一款端到端的 AI 配音模型,彻底改变了传统配音流程。它不再依赖“先转写、再翻译、最后合成”的三段式拼接,而是直接基于原始表演建模声音,将音色、情绪和演绎风格完整保留并穿越到每一种目标语言中。这意味着同一个人开口讲六国语言,听上去仍是本人,连呼吸节奏和情绪都对得上。该模型支持 90 多种语言和口音,可输入音频、视频或文字,自动完成声音克隆、同步感知翻译和措辞本地化,无需手动设置。官方演示展示了在荒岛求生、财务对白和童话故事等场景下的无缝切换效果。AI产品ElevenLabsAI配音端到端模型多语言声音克隆推荐理由:做视频本地化、游戏配音或跨国内容创作的团队,终于有了能保留原片表演灵魂的配音工具——不用再忍受机械翻译和音色断裂,直接上传视频就能出成品,建议立刻试一下。原文
01:03Y Combinator@ycombinatorKugelAudio 推出了支持 30 多种语言和方言的多语言语音 AI,用户可以在自己的 Kubernetes 集群中本地部署。该 AI 能自然处理电话号码、电子邮件和混合语言文本,完全在本地运行,无需依赖云端服务。这对于需要数据隐私和低延迟的语音应用场景具有重要意义。AI产品语音 AI多语言Kubernetes本地部署KugelAudio推荐理由:对于需要本地部署语音 AI 的团队,KugelAudio 解决了数据隐私和语言多样性的痛点,做语音应用或客服系统的开发者可以直接在自己的集群中试试。原文
18:09AI Will@FinanceYF5Anthropic 宣布 Claude 移动端语音模式即将升级,新增支持 18 种语言,用户可随时无缝切换语言。每种语言将配备 1-2 个新声音,界面也将焕然一新,并新增“按住说话”功能。底层由 Claude Haiku 4.5 驱动,但仍是文本转语音模式。这一升级将大幅提升非英语用户的语音交互体验。AI产品Claude语音模式多语言移动端Anthropic10 个信源在谈推荐理由:Claude 的语音模式终于覆盖更多语言,非英语用户可以直接用母语与 AI 对话,做多语言客服或跨国团队协作的开发者值得关注。原文
18:08AI Will@FinanceYF5Anthropic 正在为 Claude 移动应用升级语音模式,新增 18 种语言支持,并允许用户实时切换语言。每个语言将配备 1-2 种新语音,语音模式界面也将焕然一新。新增的“按下说话”功能让交互更便捷。该功能由 Claude Haiku 4.5 驱动,但文本转语音(TTS)功能可能稍后推出。AI产品Claude语音模式多语言移动应用Anthropic10 个信源在谈推荐理由:多语言语音交互的扩展让 Claude 对非英语用户更友好,做国际化产品、多语言客服或语音应用的团队值得关注,可以直接在移动端体验新功能。原文
16:18向阳乔木@vista8一位用户用中文克隆的声音,将经典电影英文台词翻译成日语、法语、德语,并通过开源TTS模型合成语音。结果声音自然,情绪传递到位,支持14种语言。该模型可本地部署,质量不错,适合制作AI播客、睡前故事、广告宣传等。试玩地址已公开,开源社区又多了一个高质量TTS选项。AI产品TTS/语音合成开源/仓库多语言AI播客本地部署推荐理由:开源TTS又多了一个高质量选项,做多语言语音合成、AI播客或本地部署的开发者可以直接试玩,效果自然到让人惊喜。原文
06:20阿里通义 Qwen@Alibaba_Qwen76°阿里通义千问团队发布了 Qwen3.7-Max 模型,在编程智能体基准测试中表现强劲,同时在通用智能体能力上也有大幅提升。该模型在最具挑战性的推理基准测试中展现出卓越实力,并在通用能力和多语言处理方面脱颖而出。这标志着国产大模型在智能体领域的重要进展。AI模型Qwen3.7-Max编程智能体推理模型多语言阿里通义千问推荐理由:Qwen3.7-Max 在编程和通用智能体任务上的大幅提升,对做 AI 编程工具和智能体应用的开发者是直接利好,建议关注其实际效果。原文
20:19Hunyuan@TXhunyuan腾讯混元发布 Hy-MT2 开源多语言翻译模型,支持 33 种语言无缝互译。7B 和 30B-A3B 版本在多项翻译任务上超越参数大数十倍的模型,轻量 1.8B 版本甚至优于微软等商业 API。模型采用腾讯 AngelSlim 1.25-bit 极致量化,仅需 440MB 存储,可在主流移动芯片上本地推理,速度比 Hy-MT1.5 快 1.5 倍。项目已在 GitHub、Hugging Face 等平台开源。AI模型开源/仓库翻译模型腾讯混元量化多语言推荐理由:做多语言翻译的开发者终于有了能本地跑的开源模型——Hy-MT2 的 1.8B 版本比微软 API 还强,且量化后仅 440MB,手机芯片就能推理,建议直接下载试试。原文
17:31IT之家(博客/媒体)腾讯混元发布新一代多语言翻译模型 Hy-MT2 并正式开源,包含 1.8B、7B、30B-A3B 三种尺寸,支持 33 种语言互译及 5 种民族语言/方言互译。轻量级 1.8B 模型通过极端量化仅需 440MB 存储空间,可在苹果、高通、联发科等手机芯片上本地部署,推理速度比上一代提升 1.5 倍,且性能超越微软等主流商业 API。同步推出的腾讯 Hy 翻译小程序支持语音输入、自定义翻译风格和离线翻译,解决了弱网络场景下的翻译需求。IFMTBench 翻译指令遵循测试集也一并开源,用于评估模型对翻译风格、术语指定等指令的遵循能力。AI模型翻译模型开源/仓库腾讯混元端侧部署多语言推荐理由:手机端就能跑的高质量翻译模型来了,做本地化应用、离线翻译工具或移动端 AI 产品的开发者可以直接下载试用,440MB 的轻量版值得关注。原文
09:46arXiv cs.AI@Souvick Das, Sallam Abualhaija, Domenico Bianculli精选法律领域对检索增强生成(RAG)系统的可靠性要求极高,但现有基准缺乏细粒度评估,且多为英文、面向专家。研究者提出ClaimRAG-LAW数据集,支持法语和英语,覆盖专家与非专家用户,包含多样问题类型。通过细粒度评估框架分析现有法律RAG系统,揭示了检索、生成及声明级分析的局限性。该工作为法律AI的可靠性评估提供了更精准的工具。论文法律AIRAG/检索增强生成基准测试细粒度评估多语言推荐理由:法律AI的幻觉问题一直难量化,这个基准把检索和生成拆开评估,做法律NLP或合规系统的团队可以直接用来测试自己的RAG管线。原文
07:59ElevenLabs@elevenlabsioElevenLabs 发布了一个名为“爱因斯坦”的语音 AI 智能体,旨在展示语音 AI 如何提升教育体验。该智能体支持多语言交互,使学习更生动、更具互动性。用户可以通过提供的链接直接体验。这一演示强调了语音 AI 在打破语言障碍、提供个性化学习方面的潜力,尤其适合教育场景。AI产品语音AI教育多语言智能体ElevenLabs推荐理由:教育工作者和在线学习平台可以直观感受语音 AI 如何让课程更生动、更包容,建议直接试用这个智能体,看看它能否融入你的教学场景。原文
07:59Google Gemini App@GeminiAppGoogle 的 Gemini 助手现已扩展至超过 230 个国家和地区,支持 70 多种语言,成为全球覆盖范围最广的 AI 助手。这一里程碑意味着更多用户可以在日常生活中使用 Gemini 进行对话、查询和任务辅助。Gemini 的广泛可用性将推动 AI 助手的普及,并可能改变用户对智能助手的依赖习惯。AI产品GeminiAI 助手全球覆盖多语言Google推荐理由:Gemini 的全球覆盖让更多地区的用户能直接使用 AI 助手,日常需要智能助手的人群可以试试看是否比现有选择更好用。原文
10:49arXiv: DeepSeek@Adrien Bazoge, Josselin Corvellec, Sofiane Djillali Sid-Ahmed, Pierre-Antoine Gourraud精选一项新研究评估了提示语言对大型语言模型临床诊断推理和最终诊断准确性的影响,比较了英文和法文下五个模型(o3、DeepSeek-R1、GPT-4-Turbo、Llama-3.1-405B-Instruct、BioMistral-7B)的表现。180个临床案例由两位医生使用18分量表评估,涵盖16个医学专科。结果显示,除o3外,其他四个模型在英文提示下表现更好,平均差异0.37-0.91分,差异体现在鉴别诊断、逻辑结构和内部有效性等多个推理维度。这表明提示语言仍是LLM临床性能的关键决定因素,对全球语言文化公平部署具有重要影响。论文LLM临床决策支持多语言诊断推理o3推荐理由:医疗AI开发者需要注意:你的模型在非英语场景下可能掉链子,o3是唯一不受语言影响的例外。做多语言临床决策支持的团队,这篇论文值得细读。原文
10:09arXiv cs.AI@Zoher Kachwala, Bao Tran Truong, Rasika Muralidharan, Haewoon Kwak, Jisun An, Filippo Menczer精选社交媒体正走向多元化,不同社区有各自的规则。研究者提出了PluRule基准,包含来自1989个Reddit社区的13371条规则违规案例,覆盖9种语言。测试发现,即使是GPT-5.2等先进模型,在识别违规内容时表现也仅略优于简单基线。增加模型规模和上下文信息带来的提升有限,而通用规则(如文明用语)更容易被检测。这表明,AI在多元社区的内容审核仍面临根本性挑战。论文内容审核多元社区基准测试Reddit多语言推荐理由:内容审核从业者和社区运营团队会关心:现有AI模型在多元规则下表现堪忧,PluRule为评估和提升审核系统提供了关键基准,值得深入研究。原文
01:10Noam Shazeer@NoamShazeerGoogle 发布了 Gemini 3.1 Flash Live 模型,专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先,支持多语言,已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体,完成复杂任务。AI模型Gemini语音智能体函数调用多语言推理模型推荐理由:语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先,做语音交互的团队可以直接上手试试。原文
01:10IT之家(博客/媒体)谷歌在 Android Show 上宣布推出 AI 语音听写功能 Rambler,集成于 Gboard 输入法。该功能由 Gemini 多语言模型驱动,能自动删除填充词(如“呃”“啊”),并理解句中的即时修正。Rambler 支持“代码切换”,即在同一句话中混合使用多种语言而不丢失上下文。谷歌强调该功能不会存储语音录音,结合设备端与云端处理以保护隐私。初期仅限三星 Galaxy 和谷歌 Pixel 手机在夏季上线,后续扩展至其他 Android 设备。AI产品Gemini语音听写Gboard多语言隐私保护推荐理由:多语言混合输入是很多用户的痛点,Rambler 用 Gemini 模型解决了跨语言听写时的上下文断裂问题,经常用语音输入或需要中英混说的用户值得关注。原文
21:35MiniMax: News(资讯)MiniMax 发布了其最新语音模型 Speech 2.8,在语音合成质量、自然度和实时性上均有显著提升。该模型支持多语言、多情感和多种说话风格,能够生成高度逼真的语音。Speech 2.8 在多个基准测试中表现优异,为语音交互、内容创作等场景提供了更强大的工具。AI模型语音合成MiniMaxSpeech 2.8多语言情感表达推荐理由:语音合成质量再上台阶,做语音助手、有声内容或虚拟主播的团队可以直接用上更自然的声音,建议体验一下效果。原文
12:33MiniMax: News(资讯)精选MiniMax 发布了新一代语音模型 Speech 2.5,支持多语言语音合成和情感控制。该模型在语音自然度和实时性上相比 Speech 2.0 有显著提升。它能够生成带笑、怒、悲等多种情绪的语音,并支持角色音色定制。MiniMax 同时开放了 API 接口供开发者集成。AI模型MiniMaxSpeech 2.5语音合成多语言推荐理由:MiniMax 语音模型升级了,能控制情感和角色音色原文
19:11arXiv: OpenAI@Urchade Zaratiana, Ash Lewis, George Hurn-MaloneyGLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型,专门用于识别42种个人身份信息(PII)实体类型,支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题,研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中,该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源,旨在促进PII检测的研究和实际部署。论文个人信息提取多语言开源/仓库合成数据隐私安全4 个信源在谈推荐理由:该模型以较小参数量在PII提取任务上达到领先性能,并采用合成数据方法规避隐私风险,为数据清洗和合规检测提供了实用工具。开源策略有助于社区进一步优化和适配多语言场景。原文
22:15阿里云 Alibaba Cloud@alibaba_cloud阿里云通义实验室与AI Singapore联合举办开发者会议,探讨如何构建真正理解东南亚语言和文化的AI。东南亚有超过7亿人口、1200多种语言,AI Singapore通过利用Qwen、Gemma等开源基础模型,与本地社区合作整合语言和文化背景,开发更包容的LLM。此举旨在缩小全球技术与本地文化之间的鸿沟,推动AI普惠化。行业阿里云AI Singapore多语言开源/仓库本地化推荐理由:这表明阿里云正推动开源模型在多语言、多文化场景的落地,对东南亚市场的本地化AI发展具有实际意义,值得关注相关生态进展。原文