全部 AI 动态 · AI 热点

6月30日

10:40

arXiv: DeepSeek@Camilo Chacón Sartori

EMPATH是一个多语言审计-法官基准，用于评估情感支持聊天机器人的安全性。该基准使用审计模型模拟求助用户，基于140个种子指令和34个人设生成多轮对话，法官模型从19个指标（分属五个维度）评分。基准在墨西哥西班牙语和美国英语上构建，研究发现标准评分在19个指标中的10个上存在膨胀，校准后恢复了区分度。在三个前沿模型（含一个开源模型）上测试，聚合分数差异在0.74分内，但具体指标差异可达6分。运行间可靠性差，deepseek-v4-pro在温度0下每次运行生成不同对话。

AI模型 EMPATH 情感支持聊天机器人 AI安全多语言基准测试

推荐理由：这个新基准EMPATH专测情感支持聊天机器人的安全漏洞，用AI模拟求助者进行多语言多轮对话，发现主流模型评分虚高且不稳定，值得一做。

原文

6月27日

22:45

Runway ML@runwayml

Runway 在 API 中推出了 Localize ads Recipe，支持通过单一 API 调用翻译静态广告和图形资产。用户只需输入一张广告图像，即可获得任意语言版本的输出。该功能旨在简化多市场广告素材的本地化流程，无需手动重新设计。目前该功能已可通过 Runway API 使用。

AI产品 Runway API 广告本地化多语言翻译

推荐理由：Runway 新出的本地化广告功能，一张图像丢进去，API 直接吐出多语言版本，省去挨个翻译的麻烦。

原文

6月24日

07:34

Mistral AI@MistralAI

Mistral 推出 OCR 4，独立标注员对600多份真实文档进行盲评，涵盖12种以上语言。在所有对比系统中，OCR 4 被优先选择，平均胜率达72%。该结果基于随机排序的双盲测试，标注员无法识别系统来源。

AI模型 Mistral OCR 4 OCR 文档识别多语言

推荐理由：Mistral 的 OCR 4 盲测赢了所有对手，处理多国语言文档很稳，平均胜率72%，值得试试。

原文

6月19日

11:31

arXiv cs.AI@Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

LiveCodeBench (LCB) 是广泛采用的代码生成基准，但仅限Python。新基准Multi-LCB将LCB任务转化为12种编程语言，包括Python、C++、Java等，保持原始污染控制和评估协议。研究者在Multi-LCB上评估了24个LLM，发现模型存在Python过拟合、语言特定污染和跨语言性能差异。Multi-LCB为多语言代码评估提供了严格的新基准，直接暴露了当前LLM在Python之外的短板。

AI模型 Multi-LCB LiveCodeBench 代码生成多语言基准测试

推荐理由：想测AI写代码的真本事？别只看Python了。Multi-LCB覆盖12种语言，一测就知道模型是不是只会Python，结果可能让你意外。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

09:11

ElevenLabs@elevenlabsio

ElevenLabs 推出 Music v2 SDK，开发者可通过文本提示生成音乐，人声、乐器和编曲质量相比 v1 显著提升。新版本支持参考匹配现有音轨，实现风格或结构复制。多语言输出功能增强，支持非英语语言生成更自然的音乐。

AI产品 ElevenLabs Music v2 音乐生成 SDK 多语言

推荐理由：ElevenLabs 的 Music v2 SDK 让开发者直接用文字生成音乐，还能参考现有曲子做匹配，多语言效果也不错，做音视频应用很实用。

原文

6月15日

16:25

16:25IT之家（博客/媒体）

精选

微信支付 AI 接入工具箱 2.0 全面支持中、英、日、韩、法等 9 种语言，全球开发者可用母语对接。2.0 版本覆盖微信支付全线产品知识，新增技术专家与金融级研发专家能力，实现报错定位修复闭环及代码质量审查。新增 CLI 动态排障，开发者可通过自然语言实时查询支付单状态，无需切换环境。文档转为 Mermaid 格式后，Token 消耗比原始 HTML 文档降低 50%，并支持自动同步官网更新。

AI产品微信支付 AI 接入工具箱支付接入多语言

推荐理由：微信支付更新了 AI 接入工具箱，现在能直接用中文等9种语言对接，Token 省一半，还加了自动排障和代码审查，开发接入更方便。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

02:32

Pika Labs@pika_labs

Pika Labs 通过 MCP 接口推出 Language Swap 技能，允许用户将视频中的语音替换为其他语言，同时保留原声的音色和口型。该功能支持 40 多种语言，可自动生成字幕并选择多种样式。创作者只需一条指令即可让视频中的自己说任何语言，极大降低了多语言内容制作的门槛。目前该功能已在 Pika MCP 中可用。

AI产品 Pika MCP/工具语音克隆视频编辑多语言

推荐理由：做多语言视频内容的创作者终于可以省去重新录制和配音的麻烦——Pika 的 Language Swap 直接克隆你的声音并换语言，还带字幕，做短视频或跨国营销的团队值得立刻试试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

04:32

04:32Hugging Face: Blog（博客/媒体）

ServiceNow AI 发布了一项针对前沿自动语音识别（ASR）模型在代码切换语音上的基准测试。代码切换指说话者在同一句话中混合使用两种语言，这在多语言用户中很常见。测试发现，当前最先进的ASR模型在处理这种混合语言时表现不佳，错误率显著高于单语言场景。该研究强调了构建能理解双语用户的语音代理的挑战，并提供了公开基准供开发者评估和改进模型。这对于开发面向多语言市场的语音助手和客服系统至关重要。

论文语音代理 ASR 代码切换多语言基准测试

推荐理由：做语音助手或客服系统的团队会发现，当前ASR模型在双语用户面前漏洞百出——代码切换场景的错误率远高于单语言，这个基准测试直接暴露了痛点，建议点开看看你的模型能否过关。

原文

03:08

Jeff Dean@JeffDean

Google 在语音翻译领域长期投入，最新推出 Gemini 3.5 Live Translate 模型，支持超过 70 种语言的语音到语音实时翻译。该模型旨在让跨语言对话更自然，已集成到 Google Translate 和 Google AI Studio 的 Live API 中。合作伙伴 Grab 正在利用该技术帮助司机与乘客沟通，展示了实际应用场景。这是 Google 在语音翻译领域的最新进展，有望提升日常应用中的多语言交流体验。

AI产品语音翻译 Gemini 3.5 实时翻译 Google 多语言

推荐理由：Google 把语音翻译推进到新阶段，70+ 语言实时互译对跨国出行、客服、会议场景的团队是直接利好，开发者可以立刻通过 Live API 接入试试。

原文

01:33

Decoder@Matthias Bastian

Google 发布了 Gemini 3.5 Live Translate，这是一个音频模型，支持超过70种语言的实时语音翻译。系统无需等待句子结束即可连续翻译，并声称能保留说话者的语调、语速和音高。在 Google Meet 中，语言支持从5种跃升至70多种。这标志着实时翻译技术的重要进步，尤其对跨国会议和多语言沟通场景有重大影响。

AI产品实时翻译语音模型 Google Meet Gemini 3.5 多语言

推荐理由：跨国团队和频繁开会的用户终于有了靠谱的实时翻译工具——Gemini 3.5 不仅支持70+语言，还能保留说话者的语气和节奏，建议在 Google Meet 中直接体验。

原文

00:46

Philipp Schmid@_philschmid

83°

Google 发布了基于 Gemini 3.5 的实时翻译功能，支持 70 多种语言和 2000 多个语言对。该功能能够自然翻译语音，在嘈杂环境中也能正常工作，并且与说话者保持同步，无延迟和尴尬停顿。它还能自动检测正在使用的语言。目前已在 Google Translate（Android 和 iOS）、Gemini API（公开预览）和 Google Meet（私人预览）中可用。这被认为是消除语言障碍的重要一步。

AI产品 Gemini 3.5 实时翻译 Google Translate 语言障碍多语言

推荐理由：Google 用 Gemini 3.5 把实时翻译做到了实用级别，70+语言、无延迟、抗噪，跨语言沟通的团队和旅行者可以直接在 Google Translate 里体验，语言障碍的终结可能真的开始了。

原文

6月9日

23:36

23:36IT之家（博客/媒体）

76°

谷歌发布实时语音互译音频模型 Gemini 3.5 Live Translate，可自动识别70多种语言并生成保留说话者语调、语速和音高的自然翻译语音。该模型在等待上下文和即时翻译之间取得平衡，避免传统轮流翻译的尴尬停顿，仅比说话者慢几秒。即日起陆续登陆谷歌翻译App、Gemini Live API、Google AI Studio和Google Meet等产品。普通用户通过Android和iOS版谷歌翻译即可使用，Android还将推出“聆听模式”，用户可像接电话一样将手机贴耳收听翻译。

AI产品谷歌 Gemini 3.5 Live Translate 实时语音翻译多语言翻译App

推荐理由：跨语言交流的痛点终于被解决了——Gemini 3.5 Live Translate 让实时翻译不再尴尬停顿，做国际会议、多语言直播或海外业务的团队可以直接在谷歌翻译 App 里体验，建议试试。

原文

23:23

Google AI Developers@googleaidevs

精选

Gemini 3.5 Live Translate 是谷歌最新的音频模型，支持 70+ 语言的低延迟实时语音翻译。它通过流式处理语音，实现近实时的翻译输出，并具备多语言输入、自动语言检测、原生音频处理（保留语调、节奏和音高）以及噪声鲁棒性（在嘈杂环境中过滤背景噪音）等特点。开发者可利用该模型构建更自然的语音交互应用。

AI模型 Gemini 3.5 Live Translate Google 语音翻译多语言低延迟

推荐理由：谷歌新模型，能实时翻译70+语言

原文

6月8日

17:03

marktechpost@Asif Razzaq

精选

微软 AI 发布了其自研语音转文字模型 MAI-Transcribe-1.5，这是该系列的第二代。该模型支持 43 种语言，在 Artificial Analysis 排行榜上词错误率低至 2.4%，在 FLEURS 基准测试中达到最佳精度。它引入了关键词（实体）偏置功能，可针对特定领域术语提升识别准确率。长音频转录速度提升高达 5 倍，1 小时音频可在 15 秒内完成转录。该模型已在 Azure AI Foundry 中正式可用。

AI模型语音识别微软 MAI-Transcribe-1.5 Azure AI Foundry 多语言

推荐理由：语音转文字场景的开发者终于有了微软官方的强力选项——MAI-Transcribe-1.5 在精度和速度上双双突破，做会议转录、客服质检或多语言内容处理的团队可以直接在 Azure 上试用，省去自建模型的麻烦。

原文

09:26

arXiv cs.AI@Yang Zhang, Xiao Fei, Amr Mohamed, Sarah Almeida Carneiro, Mersin Konomi, Mingmeng Geng, Ahmed Asaad, Guokan Shang, Michalis Vazirgiannis

论文大语言模型多语言文化知识评估框架项目反应理论

推荐理由：这篇论文揭示了多语言AI评估中的一个关键误区——本地语言表现差可能不是知识缺失，而是语言能力瓶颈。做跨文化NLP或本地化模型的团队，看完会重新理解评测指标。

原文

6月6日

15:55

marktechpost@Asif Razzaq

精选

NVIDIA发布了Nemotron 3.5 ASR，一个600M参数的流式语音识别模型。该模型采用cache-aware架构，可从单个检查点实时转录40种语言-区域。它针对低延迟场景优化，支持多种语言的实时语音转文字。

AI模型 Nemotron 3.5 ASR NVIDIA 语音识别流式模型多语言

推荐理由：600M模型转40语言实时

原文

6月3日

04:44

OpenRouter@OpenRouterAI

微软发布MAI-Voice-2，一款支持15种语言的情感可控文本转语音模型，可表达兴奋、尴尬、耳语等情绪，并在长文本中保持稳定的说话人身份。该模型与MAI-Transcribe-1.5语音识别模型搭配使用，已在OpenRouter上线。这为多语言内容创作、有声读物、语音助手等场景提供了更自然、富有表现力的语音合成能力。

AI模型微软 MAI-Voice-2 文本转语音情感控制多语言

推荐理由：做多语言内容或语音应用的团队终于有了一个能控制情绪、长文本不跑调的TTS模型，直接上OpenRouter就能用，值得试试。

原文

6月2日

12:04

arXiv cs.AI@Deokhyung Kang, Hyounghun Kim, Gary Geunbae Lee

推理语言模型在复杂推理任务上表现优异，但在非英语输入上仍存在多语言推理差距，主要原因是语言理解失败。英语翻译可以缓解这一问题，但并非所有输入都需要翻译。为此，研究者提出 Luar（语言理解边界感知强化学习框架），训练模型在直接理解不可靠时选择性调用翻译。在多项多语言推理基准测试中，Luar 优于标准 GRPO 等方法，尤其在低资源语言上提升显著。该框架能避免不必要的翻译，并泛化到未见过的低资源语言。项目代码已开源。

论文推理模型多语言强化学习翻译开源/仓库

推荐理由：多语言推理场景下，翻译不是越多越好——Luar 教会模型在「不懂的时候才翻」，做多语言 NLP 或低资源语言应用的团队可以直接用这个框架来提升推理效率。

原文

5月30日

04:15

Greg Brockman@gdb

72°

OpenAI 推出全新模型 gpt-realtime-translate，专为实时语音翻译设计。该模型支持 70 多种输入语言，并能将语音直接翻译成 13 种目标语言的语音输出。与通用大模型不同，这是针对特定场景优化的专用模型，已在智能眼镜上运行。这一发布标志着 AI 翻译从文本处理向端到端语音翻译的跨越，对跨国交流、旅游、商务等场景有重大意义。

AI产品 OpenAI 实时翻译语音模型智能眼镜多语言

推荐理由：实时语音翻译终于有了专用模型，做跨国业务、旅行或智能硬件的团队可以直接用起来，省去多步转写的麻烦。

原文

5月29日

21:32

Greg Brockman@gdb

精选72°

OpenAI 员工 Michelle Pokrass 宣布今日发布了新版 GPT-5.5 Instant 模型。旧版模型被认为过于“子弹头”式（即过于激进/固执），新版在谄媚倾向、事实准确性和多语言性能三个关键维度上做了改进。该模型已上线 ChatGPT，团队欢迎用户反馈。这次更新表明 OpenAI 在持续调优模型行为，尤其关注减少谄媚和提升可靠性。

AI产品 ChatGPT GPT-5.5 Instant 模型更新事实性多语言

推荐理由：如果你在用 ChatGPT 做事实核查或多语言任务，新版 5.5 Instant 值得一试——它直接解决了旧版过于固执和谄媚的问题，对需要准确答案的开发者来说是个实用升级。

原文

10:01

小互@imxiaohu

76°

ElevenLabs 发布了 Dubbing V2，这是一款端到端的 AI 配音模型，彻底改变了传统配音流程。它不再依赖“先转写、再翻译、最后合成”的三段式拼接，而是直接基于原始表演建模声音，将音色、情绪和演绎风格完整保留并穿越到每一种目标语言中。这意味着同一个人开口讲六国语言，听上去仍是本人，连呼吸节奏和情绪都对得上。该模型支持 90 多种语言和口音，可输入音频、视频或文字，自动完成声音克隆、同步感知翻译和措辞本地化，无需手动设置。官方演示展示了在荒岛求生、财务对白和童话故事等场景下的无缝切换效果。

AI产品 ElevenLabs AI配音端到端模型多语言声音克隆

推荐理由：做视频本地化、游戏配音或跨国内容创作的团队，终于有了能保留原片表演灵魂的配音工具——不用再忍受机械翻译和音色断裂，直接上传视频就能出成品，建议立刻试一下。

原文

01:03

Y Combinator@ycombinator

KugelAudio 推出了支持 30 多种语言和方言的多语言语音 AI，用户可以在自己的 Kubernetes 集群中本地部署。该 AI 能自然处理电话号码、电子邮件和混合语言文本，完全在本地运行，无需依赖云端服务。这对于需要数据隐私和低延迟的语音应用场景具有重要意义。

AI产品语音 AI 多语言 Kubernetes 本地部署 KugelAudio

推荐理由：对于需要本地部署语音 AI 的团队，KugelAudio 解决了数据隐私和语言多样性的痛点，做语音应用或客服系统的开发者可以直接在自己的集群中试试。

原文

5月28日

18:09

AI Will@FinanceYF5

Anthropic 宣布 Claude 移动端语音模式即将升级，新增支持 18 种语言，用户可随时无缝切换语言。每种语言将配备 1-2 个新声音，界面也将焕然一新，并新增“按住说话”功能。底层由 Claude Haiku 4.5 驱动，但仍是文本转语音模式。这一升级将大幅提升非英语用户的语音交互体验。

AI产品 Claude 语音模式多语言移动端 Anthropic

推荐理由：Claude 的语音模式终于覆盖更多语言，非英语用户可以直接用母语与 AI 对话，做多语言客服或跨国团队协作的开发者值得关注。

原文

18:08

AI Will@FinanceYF5

Anthropic 正在为 Claude 移动应用升级语音模式，新增 18 种语言支持，并允许用户实时切换语言。每个语言将配备 1-2 种新语音，语音模式界面也将焕然一新。新增的“按下说话”功能让交互更便捷。该功能由 Claude Haiku 4.5 驱动，但文本转语音（TTS）功能可能稍后推出。

AI产品 Claude 语音模式多语言移动应用 Anthropic

推荐理由：多语言语音交互的扩展让 Claude 对非英语用户更友好，做国际化产品、多语言客服或语音应用的团队值得关注，可以直接在移动端体验新功能。

原文

5月26日

16:18

向阳乔木@vista8

一位用户用中文克隆的声音，将经典电影英文台词翻译成日语、法语、德语，并通过开源TTS模型合成语音。结果声音自然，情绪传递到位，支持14种语言。该模型可本地部署，质量不错，适合制作AI播客、睡前故事、广告宣传等。试玩地址已公开，开源社区又多了一个高质量TTS选项。

AI产品 TTS/语音合成开源/仓库多语言 AI播客本地部署

推荐理由：开源TTS又多了一个高质量选项，做多语言语音合成、AI播客或本地部署的开发者可以直接试玩，效果自然到让人惊喜。

原文

5月22日

06:20

阿里通义 Qwen@Alibaba_Qwen

76°

阿里通义千问团队发布了 Qwen3.7-Max 模型，在编程智能体基准测试中表现强劲，同时在通用智能体能力上也有大幅提升。该模型在最具挑战性的推理基准测试中展现出卓越实力，并在通用能力和多语言处理方面脱颖而出。这标志着国产大模型在智能体领域的重要进展。

AI模型 Qwen3.7-Max 编程智能体推理模型多语言阿里通义千问

推荐理由：Qwen3.7-Max 在编程和通用智能体任务上的大幅提升，对做 AI 编程工具和智能体应用的开发者是直接利好，建议关注其实际效果。

原文

5月21日

20:19

Hunyuan@TXhunyuan

腾讯混元发布 Hy-MT2 开源多语言翻译模型，支持 33 种语言无缝互译。7B 和 30B-A3B 版本在多项翻译任务上超越参数大数十倍的模型，轻量 1.8B 版本甚至优于微软等商业 API。模型采用腾讯 AngelSlim 1.25-bit 极致量化，仅需 440MB 存储，可在主流移动芯片上本地推理，速度比 Hy-MT1.5 快 1.5 倍。项目已在 GitHub、Hugging Face 等平台开源。

AI模型开源/仓库翻译模型腾讯混元量化多语言

推荐理由：做多语言翻译的开发者终于有了能本地跑的开源模型——Hy-MT2 的 1.8B 版本比微软 API 还强，且量化后仅 440MB，手机芯片就能推理，建议直接下载试试。

原文

17:31

17:31IT之家（博客/媒体）

腾讯混元发布新一代多语言翻译模型 Hy-MT2 并正式开源，包含 1.8B、7B、30B-A3B 三种尺寸，支持 33 种语言互译及 5 种民族语言/方言互译。轻量级 1.8B 模型通过极端量化仅需 440MB 存储空间，可在苹果、高通、联发科等手机芯片上本地部署，推理速度比上一代提升 1.5 倍，且性能超越微软等主流商业 API。同步推出的腾讯 Hy 翻译小程序支持语音输入、自定义翻译风格和离线翻译，解决了弱网络场景下的翻译需求。IFMTBench 翻译指令遵循测试集也一并开源，用于评估模型对翻译风格、术语指定等指令的遵循能力。

AI模型翻译模型开源/仓库腾讯混元端侧部署多语言

推荐理由：手机端就能跑的高质量翻译模型来了，做本地化应用、离线翻译工具或移动端 AI 产品的开发者可以直接下载试用，440MB 的轻量版值得关注。

原文

09:46

arXiv cs.AI@Souvick Das, Sallam Abualhaija, Domenico Bianculli

精选

法律领域对检索增强生成（RAG）系统的可靠性要求极高，但现有基准缺乏细粒度评估，且多为英文、面向专家。研究者提出ClaimRAG-LAW数据集，支持法语和英语，覆盖专家与非专家用户，包含多样问题类型。通过细粒度评估框架分析现有法律RAG系统，揭示了检索、生成及声明级分析的局限性。该工作为法律AI的可靠性评估提供了更精准的工具。

论文法律AI RAG/检索增强生成基准测试细粒度评估多语言

推荐理由：法律AI的幻觉问题一直难量化，这个基准把检索和生成拆开评估，做法律NLP或合规系统的团队可以直接用来测试自己的RAG管线。

原文

07:59

ElevenLabs@elevenlabsio

ElevenLabs 发布了一个名为“爱因斯坦”的语音 AI 智能体，旨在展示语音 AI 如何提升教育体验。该智能体支持多语言交互，使学习更生动、更具互动性。用户可以通过提供的链接直接体验。这一演示强调了语音 AI 在打破语言障碍、提供个性化学习方面的潜力，尤其适合教育场景。

AI产品语音AI 教育多语言智能体 ElevenLabs

推荐理由：教育工作者和在线学习平台可以直观感受语音 AI 如何让课程更生动、更包容，建议直接试用这个智能体，看看它能否融入你的教学场景。

原文

07:59

Google Gemini App@GeminiApp

Google 的 Gemini 助手现已扩展至超过 230 个国家和地区，支持 70 多种语言，成为全球覆盖范围最广的 AI 助手。这一里程碑意味着更多用户可以在日常生活中使用 Gemini 进行对话、查询和任务辅助。Gemini 的广泛可用性将推动 AI 助手的普及，并可能改变用户对智能助手的依赖习惯。

AI产品 Gemini AI 助手全球覆盖多语言 Google

推荐理由：Gemini 的全球覆盖让更多地区的用户能直接使用 AI 助手，日常需要智能助手的人群可以试试看是否比现有选择更好用。

原文

5月20日

10:49

arXiv: DeepSeek@Adrien Bazoge, Josselin Corvellec, Sofiane Djillali Sid-Ahmed, Pierre-Antoine Gourraud

精选

一项新研究评估了提示语言对大型语言模型临床诊断推理和最终诊断准确性的影响，比较了英文和法文下五个模型（o3、DeepSeek-R1、GPT-4-Turbo、Llama-3.1-405B-Instruct、BioMistral-7B）的表现。180个临床案例由两位医生使用18分量表评估，涵盖16个医学专科。结果显示，除o3外，其他四个模型在英文提示下表现更好，平均差异0.37-0.91分，差异体现在鉴别诊断、逻辑结构和内部有效性等多个推理维度。这表明提示语言仍是LLM临床性能的关键决定因素，对全球语言文化公平部署具有重要影响。

论文 LLM 临床决策支持多语言诊断推理 o3

推荐理由：医疗AI开发者需要注意：你的模型在非英语场景下可能掉链子，o3是唯一不受语言影响的例外。做多语言临床决策支持的团队，这篇论文值得细读。

原文

5月19日

10:09

arXiv cs.AI@Zoher Kachwala, Bao Tran Truong, Rasika Muralidharan, Haewoon Kwak, Jisun An, Filippo Menczer

精选

社交媒体正走向多元化，不同社区有各自的规则。研究者提出了PluRule基准，包含来自1989个Reddit社区的13371条规则违规案例，覆盖9种语言。测试发现，即使是GPT-5.2等先进模型，在识别违规内容时表现也仅略优于简单基线。增加模型规模和上下文信息带来的提升有限，而通用规则（如文明用语）更容易被检测。这表明，AI在多元社区的内容审核仍面临根本性挑战。

论文内容审核多元社区基准测试 Reddit 多语言

推荐理由：内容审核从业者和社区运营团队会关心：现有AI模型在多元规则下表现堪忧，PluRule为评估和提升审核系统提供了关键基准，值得深入研究。

原文

5月14日

01:10

Noam Shazeer@NoamShazeer

Google 发布了 Gemini 3.1 Flash Live 模型，专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先，支持多语言，已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体，完成复杂任务。

AI模型 Gemini 语音智能体函数调用多语言推理模型

推荐理由：语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先，做语音交互的团队可以直接上手试试。

原文

01:10

01:10IT之家（博客/媒体）

谷歌在 Android Show 上宣布推出 AI 语音听写功能 Rambler，集成于 Gboard 输入法。该功能由 Gemini 多语言模型驱动，能自动删除填充词（如“呃”“啊”），并理解句中的即时修正。Rambler 支持“代码切换”，即在同一句话中混合使用多种语言而不丢失上下文。谷歌强调该功能不会存储语音录音，结合设备端与云端处理以保护隐私。初期仅限三星 Galaxy 和谷歌 Pixel 手机在夏季上线，后续扩展至其他 Android 设备。

AI产品 Gemini 语音听写 Gboard 多语言隐私保护

推荐理由：多语言混合输入是很多用户的痛点，Rambler 用 Gemini 模型解决了跨语言听写时的上下文断裂问题，经常用语音输入或需要中英混说的用户值得关注。

原文

5月13日

21:35

21:35MiniMax: News（资讯）

AI模型语音合成 MiniMax Speech 2.8 多语言情感表达

推荐理由：语音合成质量再上台阶，做语音助手、有声内容或虚拟主播的团队可以直接用上更自然的声音，建议体验一下效果。

原文

12:33

12:33MiniMax: News（资讯）

精选

MiniMax 发布了新一代语音模型 Speech 2.5，支持多语言语音合成和情感控制。该模型在语音自然度和实时性上相比 Speech 2.0 有显著提升。它能够生成带笑、怒、悲等多种情绪的语音，并支持角色音色定制。MiniMax 同时开放了 API 接口供开发者集成。

AI模型 MiniMax Speech 2.5 语音合成多语言

推荐理由：MiniMax 语音模型升级了，能控制情感和角色音色

原文

5月12日

19:11

arXiv: OpenAI@Urchade Zaratiana, Ash Lewis, George Hurn-Maloney

GLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型，专门用于识别42种个人身份信息（PII）实体类型，支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题，研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中，该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源，旨在促进PII检测的研究和实际部署。

论文个人信息提取多语言开源/仓库合成数据隐私安全

推荐理由：该模型以较小参数量在PII提取任务上达到领先性能，并采用合成数据方法规避隐私风险，为数据清洗和合规检测提供了实用工具。开源策略有助于社区进一步优化和适配多语言场景。

原文

5月11日

22:15

阿里云 Alibaba Cloud@alibaba_cloud

阿里云通义实验室与AI Singapore联合举办开发者会议，探讨如何构建真正理解东南亚语言和文化的AI。东南亚有超过7亿人口、1200多种语言，AI Singapore通过利用Qwen、Gemma等开源基础模型，与本地社区合作整合语言和文化背景，开发更包容的LLM。此举旨在缩小全球技术与本地文化之间的鸿沟，推动AI普惠化。

行业阿里云 AI Singapore 多语言开源/仓库本地化

推荐理由：这表明阿里云正推动开源模型在多语言、多文化场景的落地，对东南亚市场的本地化AI发展具有实际意义，值得关注相关生态进展。

原文