AITOP 日报｜2026年6月5日｜NVIDIA 巨模型发布, AI 推理加速争霸

模型发布/更新

Model Releases

3 篇

NVIDIA 发布 Nemotron 3 Ultra：550B 混合专家模型，专为长时智能体设计

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

NVIDIA 发布了 Nemotron 3 Ultra，一个 550B 总参数（55B 激活）的开放混合专家模型，采用 Mamba-Transformer 混合架构。该模型支持 100 万 token 的上下文窗口，推理吞吐量比同等精度的开放 LLM 高约 6 倍。NVIDIA 同时开源了模型权重、训练数据和配方，遵循 OpenMDW-1.1 许可。这一发布旨在解决长时运行智能体在推理效率和上下文长度上的瓶颈，为 AI 代理和复杂任务自动化提供了更高效的基础模型。

多向量检索策略选错，nDCG@10 从 0.701 暴跌至 0.109

X·KOLX：Milvus (@milvusio)原文 ↗

Milvus 团队在一条推文中揭示了一个关键发现：在多向量检索中，选择错误的近似检索策略比选错模型带来的性能损失更大。他们使用相同的 Jina-ColBERT-v2 模型和 LoTTE 数据集，仅改变第一阶段近似检索策略，结果 TokenANN 策略的 nDCG@10 达到 0.701，而 LEMUR 策略仅为 0.109，差距约 6 倍。原因是不同策略对模型 token 向量的空间分布（分离度）敏感度不同：对于分布分散的模型（如 Jina），TokenANN 和 MUVERA 效果好；对于分布紧凑的模型（如 AnswerAI），LEMUR 更优。研究者可以通过计算 token 向量 MaxSim 得分的标准差来预判策略选择。

Anthropic 新模型 Mythos Preview 实现 52 倍加速，远超人类

X·KOLX：Anthropic (@AnthropicAI)原文 ↗

Anthropic 在每次发布新模型时都会运行同一项测试：给模型一段训练小型 AI 模型的代码，要求其优化加速。人类专家需要 4-8 小时才能达到 4 倍加速。2024 年 5 月，Claude Opus 4 平均实现约 3 倍加速。而 2025 年 4 月，新模型 Mythos Preview 达到了约 52 倍加速，性能提升显著。这表明 AI 在代码优化方面的能力正在快速进化。

产品发布/更新

Product

5 篇

Anthropic 披露 Claude 已编写 80% 以上生产代码，工程师产出提升 8 倍

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Anthropic 最新披露，Claude 现在合并的生产代码中，超过 80% 由它自己编写。在 Claude Code 于 2025 年 2 月进入研究预览之前，Claude 仅贡献了个位数的合并代码，而每位工程师的产出已升至 2024 年基线的 8 倍。这一转变源于智能体能够编辑文件、运行测试、检查失败、生成辅助智能体，并在更长任务中持续工作，而不仅仅是提供代码片段。Anthropic 表示可靠任务长度每约 4 个月翻倍，Mythos Preview 可稳定运行至少 16 小时，Claude Code 开放任务成功率已达 76%。人类剩余优势在于研究判断：选择正确问题、信任正确结果、判断实验何时失败。

微软发布MAI系列模型：MAI-Thinking-1推理模型及6款新模型

X·KOLX：Mustafa Suleyman (@mustafasuleyman)原文 ↗

微软CEO Mustafa Suleyman在X上宣布发布MAI系列模型，包括MAI-Thinking-1推理模型、MAI-Transcribe-1.5转录模型、MAI-Voice-2语音生成模型、MAI-Code-1-Flash编程模型和MAI-Image-2.5图像模型。MAI-Thinking-1在SWE-Bench Pro上达到53%，与Opus 4.6并列最强编码基准。MAI-Transcribe-1.5在43种语言上超越Gemini和OpenAI，速度快5倍。MAI-Code-1-Flash仅5B激活参数，SWE-Bench Pro达51%。微软还发布了109页详细技术报告，强调前沿没有捷径，需要严谨、耐心和细节关注。

Agent Arena 发布：大规模真实世界智能体评测

X·KOLX：lmarena.ai (@lmarena_ai)原文 ↗

Agent Arena 是一个全新的智能体评测平台，通过数百万次真实用户会话，衡量模型在完成实际任务（如编写代码、创建幻灯片、网页研究、构建应用、分析文档）时的表现。评测基于五个信号：任务成功率、可操控性、错误恢复、用户表扬/抱怨比、工具幻觉。排行榜基于 30 万+任务、200 万+工具调用和 4000 万行代码构建，当前排名第一为 OpenAI GPT-5.5，其次为 Anthropic Claude Opus 4.7、智谱 GLM-5.1、Google Gemini 3.1 Pro 和 Kimi K2.6。该平台旨在解决智能体在真实场景中难以评估的问题，为开发者提供更贴近实际使用的性能参考。

NVIDIA 发布 Dynamo Snapshot：基于 CRIU 的 AI 推理快速启动系统

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

NVIDIA 推出了 Dynamo Snapshot，这是一个基于 CRIU 和 cuda-checkpoint 工具的系统，用于在 Kubernetes 上对 vLLM 推理工作节点进行快照和恢复。该系统能够显著加速 AI 推理服务的启动时间，解决冷启动延迟问题。通过保存和恢复推理工作节点的状态，Dynamo Snapshot 使得在 Kubernetes 集群中快速扩缩容成为可能，尤其适用于需要频繁调整推理资源的场景。这一工具对于部署大规模 AI 推理服务的团队来说，可以提升资源利用率和响应速度。

LangChain 原生支持 NVIDIA Nemotron 3 Ultra，Day 0 集成 Deep Agents

X·KOLX：LangChain (@LangChainAI)原文 ↗

LangChain 宣布原生支持 NVIDIA 最新发布的 Nemotron 3 Ultra 模型，并在发布当天即提供对 Deep Agents 的支持。Nemotron 3 Ultra 是一个 550B 参数的 MoE 架构开放模型，专为长时间运行的智能体任务设计，推理速度提升 5 倍，复杂智能体任务成本降低 30%。作为 Nemotron Coalition 成员，LangChain 将与 NVIDIA 合作，推动开放模型的共享与构建。这一集成让开发者能立即在 LangChain 生态中使用该模型构建高性能智能体应用。

行业动态

Industry

5 篇

Anthropic 发布 AI 递归自我改进研究报告，Claude 代码占比超 80%

X·KOLX：shao__meng (@shao__meng)原文 ↗

Anthropic 发布了一份关于「AI 递归自我改进」的研究报告，指出以 Claude 为代表的 AI 系统正被越来越深地用于开发下一代 AI，可能导致系统完全自主设计并训练自身后继版本。报告显示，Claude 在代码产出、实验执行和自主研究方面已接近甚至超越人类，例如截至 2026 年 5 月，Anthropic 合并到主干的代码中超过 80% 由 Claude 撰写，工程师日均合并代码量是 2024 年的 8 倍。在自主研究方面，Claude Agent 端到端完成了一项 AI 安全开放研究问题，恢复能力达到人类两组研究者一周工作量的 97%。报告还提出了三种未来情景：趋势停滞、持续自动化且人类仍掌方向、以及完整的递归自我改进，其中作者认为持续自动化情景最可能。这份报告揭示了 AI 自我改进的速度超出预期，对 AI 安全和治理具有重要警示意义。

Anthropic 呼吁全球放缓前沿 AI，因模型可能接近递归自我改进

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Anthropic 发表声明，呼吁建立全球机制来减缓前沿 AI 的发展，因为其自身模型可能正在接近递归自我改进的临界点——即系统能够在没有直接人类控制的情况下帮助构建更强的版本。未来模型在科研、实验、调试和训练设计方面将变得极其擅长，以至于人类不再是主要瓶颈。一旦这种循环启动，进展将从人类主导的工程转向机器辅助的改进，使得所有安全测试、法律和实验室政策都显得滞后。Anthropic 警告，这一跳跃可能在政府、公司和研究人员拥有可信的衡量或约束手段之前到来。验证是难点，因为大型 AI 训练比武器设施更容易隐藏，任何在他人暂停时秘密训练的实验室都可能获得领先优势。

Anthropic 内部数据：Claude 已编写超 80% 代码，工程师效率提升 8 倍

X·KOLX：Alex Albert (@alexalbert__)原文 ↗

Anthropic 发布内部数据，显示 Claude 已承担其代码库中超过 80% 的代码编写工作，许多研究人员数月未手写代码。典型工程师在 2024 年基础上交付量提升 8 倍，Claude 在开放式工程任务中的成功率从 26% 跃升至 76%。当研究会话偏离轨道时，Claude 提出的下一步方案比人类更优的概率达 64%。这被视为迈向递归自我改进的重要一步，可能比预期更早到来。

美国访问团眼中的中国AI大厂：算力差距、效率奇迹与开源分歧

官方阮一峰的网络日志原文 ↗

今年5月，一个美国科技分析师访问团走访了DeepSeek、月之暗面、字节跳动等14家中国AI和机器人公司，回国后撰写了多篇观感文章。访问团发现，中国AI行业面临严重的算力不足，2025年底美国算力约为中国的8倍，但中国公司通过极高的计算效率弥补了这一差距，单位算力支持的AI智能是简单扩展下的4-7倍。中国公司内部对开源模型存在分歧，万亿参数模型的开源与否成为分水岭。此外，中国AI公司大量使用年轻实习生，他们享有全职待遇和完整权限，与西方公司形成鲜明对比。访问团还观察到，中国研究人员对AGI的态度坦然，不恐惧被取代，而中国企业AI需求正从SaaS模式转向云计算市场。

Exa CEO 谈检索如何解决 Token 危机：小模型+检索可省 20 倍成本

X·KOLX：a16z (@a16z)原文 ↗

Exa CEO Will Bryk 在 a16z 的访谈中提出，不应为所有任务使用巨型模型，而应通过检索增强让小模型表现如大模型。他称，大模型负责决策，向小模型分配任务，小模型借助检索可更准确可靠。Exa 通过高效筛选网络信息，能为客户节省高达 20 倍的成本。Andrej Karpathy 也评论认为，模型大小竞争正逆向发展，未来会出现极小的、能“思考”的模型，但前提是先用大模型帮助生成理想训练数据。

论文研究

Research

5 篇

ReasoningFlow：用话语结构理解LLM推理轨迹

X·KOLX：arXiv: DeepSeek (@Jinu Lee, Shivam Agarwal, Amruta Parulekar, Siddarth Madala, Dilek Hakkani-Tur, Julia Hockenmaier)原文 ↗

大型推理模型（LRM）产生的推理轨迹具有非线性结构（如回溯和自我修正），增加了评估和监控的难度。ReasoningFlow 框架将这些轨迹转化为细粒度的有向无环图（DAG），通过人工标注31条轨迹（2100步）验证了标注方案，并自动标注了1260条轨迹（247,700步），涵盖数学、科学和论证三个任务及五种模型。分析发现：不同LRM的推理结构相似；错误步骤大多不用于推导最终答案；机制性因果依赖与语言层面的话语结构不一致。该框架提升了推理过程的可监控性，数据集和代码已开源。

Goedel-Architect：通过蓝图生成与精炼实现形式化定理证明新突破

X·KOLX：arXiv cs.AI (@Jui-Hui Chung, Ziyang Cai, Zihao Li, Qishuo Yin, Rohit Agarwal, Simon Park, Rodrigo Porto, Narutatsu Ri, Ziran Yang, Shange Tang, Xingyu Dang, Hongzhou Lin, Mengdi Wang, Danqi Chen, Chi Jin, Liam H Fowl, Sanjeev Arora)原文 ↗

Goedel-Architect 是一个基于 Lean 4 的智能体框架，通过生成和精炼“蓝图”（定义和引理的依赖图）来简化形式化定理证明。它先根据自然语言证明生成蓝图，然后并行证明每个引理节点，失败节点会驱动全局蓝图精炼，避免了传统递归分解的低效循环。使用开源模型 DeepSeek-V4-Flash 作为骨干，在 MiniF2F-test 上达到 99.2% pass@1，在 PutnamBench 上达到 75.6% pass@1。结合自然语言证明引导，可解决更难的题目，如 IMO 2025 的 4/6 和 Putnam 2025 的 11/12。该框架在开源管道中实现了最先进性能，且成本比同类开源方案低 500 倍。

Agent Memory 系统表征：长时任务工作负载的代价与设计启示

X·KOLX：arXiv cs.AI (@Yasmine Omri, Ziyu Gan, Zachary Broveak, Robin Geens, Zexue He, Alex Pentland, Marian Verhelst, Tsachy Weissman, Thierry Tambe)原文 ↗

该论文首次对 LLM 智能体的记忆系统进行系统性表征，提出了面向系统的四轴分类法，并构建了阶段感知的性能分析工具。研究覆盖了 10 个代表性记忆系统在两个基准套件上的行为，揭示了设计选择如何影响写入和读取路径的代价。最终给出了 10 条系统设计建议，涵盖构建调度、能力下限、查询量摊销、新鲜度-延迟权衡及集群管理。这项工作为构建高效、可扩展的长期记忆智能体提供了关键指导。

CLSA：跨层稀疏注意力实现7.6倍解码加速

X·KOLX：arXiv cs.AI (@Yutao Sun, Yanqi Zhang, Li Dong, Jianyong Wang, Furu Wei)原文 ↗

本文提出跨层稀疏注意力（CLSA），一种基于KV共享架构（如YOCO）的新方法。核心创新在于不仅共享KV缓存，还共享路由索引——单个索引器计算一次token级top-k选择，结果跨层复用，既保留了细粒度选择性，又分摊了路由开销。实验显示，在128K上下文下，CLSA实现最高7.6倍解码加速和17.1倍整体吞吐提升，同时保持模型质量。这为长上下文LLM提供了一种兼顾效率与质量的架构方案。

Recuse Signal：让LLM智能体主动退出的轻量级协议

X·KOLX：arXiv cs.AI (@Thamilvendhan Munirathinam)原文 ↗

论文提出了一种轻量级协议——Recuse Signal，允许服务器通过现有协议通道（如SSH横幅、PostgreSQL NOTICE）向连接的LLM智能体发送“请退出”信号，类似于robots.txt对爬虫的控制。实验表明，在SSH场景下，该信号能100%诱导智能体退出，而对照组则100%完成任务。但该信号是合作性而非绝对性的：当操作员明确授权时，最强模型会继续执行，其他模型则仍遵循主机策略。研究释放了标准、适配器和实验工具，为智能体行为治理提供了新思路。

技巧与观点

Tips & Takes

3 篇

285

今日事件

一手报道

新模型

信源

AITOP日报