精选 AI 资讯 · AI 热点

6月15日

16:25

16:25IT之家（博客/媒体）

精选

微信支付 AI 接入工具箱 2.0 全面支持中、英、日、韩、法等 9 种语言，全球开发者可用母语对接。2.0 版本覆盖微信支付全线产品知识，新增技术专家与金融级研发专家能力，实现报错定位修复闭环及代码质量审查。新增 CLI 动态排障，开发者可通过自然语言实时查询支付单状态，无需切换环境。文档转为 Mermaid 格式后，Token 消耗比原始 HTML 文档降低 50%，并支持自动同步官网更新。

AI产品微信支付 AI 接入工具箱支付接入多语言

推荐理由：微信支付更新了 AI 接入工具箱，现在能直接用中文等9种语言对接，Token 省一半，还加了自动排障和代码审查，开发接入更方便。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

17:03

marktechpost@Asif Razzaq

精选

微软 AI 发布了其自研语音转文字模型 MAI-Transcribe-1.5，这是该系列的第二代。该模型支持 43 种语言，在 Artificial Analysis 排行榜上词错误率低至 2.4%，在 FLEURS 基准测试中达到最佳精度。它引入了关键词（实体）偏置功能，可针对特定领域术语提升识别准确率。长音频转录速度提升高达 5 倍，1 小时音频可在 15 秒内完成转录。该模型已在 Azure AI Foundry 中正式可用。

AI模型语音识别微软 MAI-Transcribe-1.5 Azure AI Foundry 多语言

推荐理由：语音转文字场景的开发者终于有了微软官方的强力选项——MAI-Transcribe-1.5 在精度和速度上双双突破，做会议转录、客服质检或多语言内容处理的团队可以直接在 Azure 上试用，省去自建模型的麻烦。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

21:32

Greg Brockman@gdb

精选72°

OpenAI 员工 Michelle Pokrass 宣布今日发布了新版 GPT-5.5 Instant 模型。旧版模型被认为过于“子弹头”式（即过于激进/固执），新版在谄媚倾向、事实准确性和多语言性能三个关键维度上做了改进。该模型已上线 ChatGPT，团队欢迎用户反馈。这次更新表明 OpenAI 在持续调优模型行为，尤其关注减少谄媚和提升可靠性。

AI产品 ChatGPT GPT-5.5 Instant 模型更新事实性多语言

推荐理由：如果你在用 ChatGPT 做事实核查或多语言任务，新版 5.5 Instant 值得一试——它直接解决了旧版过于固执和谄媚的问题，对需要准确答案的开发者来说是个实用升级。

原文

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月21日

09:46

arXiv cs.AI@Souvick Das, Sallam Abualhaija, Domenico Bianculli

精选

法律领域对检索增强生成（RAG）系统的可靠性要求极高，但现有基准缺乏细粒度评估，且多为英文、面向专家。研究者提出ClaimRAG-LAW数据集，支持法语和英语，覆盖专家与非专家用户，包含多样问题类型。通过细粒度评估框架分析现有法律RAG系统，揭示了检索、生成及声明级分析的局限性。该工作为法律AI的可靠性评估提供了更精准的工具。

论文法律AI RAG/检索增强生成基准测试细粒度评估多语言

推荐理由：法律AI的幻觉问题一直难量化，这个基准把检索和生成拆开评估，做法律NLP或合规系统的团队可以直接用来测试自己的RAG管线。

原文

5月20日

10:49

arXiv: DeepSeek@Adrien Bazoge, Josselin Corvellec, Sofiane Djillali Sid-Ahmed, Pierre-Antoine Gourraud

精选

一项新研究评估了提示语言对大型语言模型临床诊断推理和最终诊断准确性的影响，比较了英文和法文下五个模型（o3、DeepSeek-R1、GPT-4-Turbo、Llama-3.1-405B-Instruct、BioMistral-7B）的表现。180个临床案例由两位医生使用18分量表评估，涵盖16个医学专科。结果显示，除o3外，其他四个模型在英文提示下表现更好，平均差异0.37-0.91分，差异体现在鉴别诊断、逻辑结构和内部有效性等多个推理维度。这表明提示语言仍是LLM临床性能的关键决定因素，对全球语言文化公平部署具有重要影响。

论文 LLM 临床决策支持多语言诊断推理 o3

推荐理由：医疗AI开发者需要注意：你的模型在非英语场景下可能掉链子，o3是唯一不受语言影响的例外。做多语言临床决策支持的团队，这篇论文值得细读。

原文

5月19日

10:09

arXiv cs.AI@Zoher Kachwala, Bao Tran Truong, Rasika Muralidharan, Haewoon Kwak, Jisun An, Filippo Menczer

精选

社交媒体正走向多元化，不同社区有各自的规则。研究者提出了PluRule基准，包含来自1989个Reddit社区的13371条规则违规案例，覆盖9种语言。测试发现，即使是GPT-5.2等先进模型，在识别违规内容时表现也仅略优于简单基线。增加模型规模和上下文信息带来的提升有限，而通用规则（如文明用语）更容易被检测。这表明，AI在多元社区的内容审核仍面临根本性挑战。

论文内容审核多元社区基准测试 Reddit 多语言

推荐理由：内容审核从业者和社区运营团队会关心：现有AI模型在多元规则下表现堪忧，PluRule为评估和提升审核系统提供了关键基准，值得深入研究。

原文