AITOP 日报｜2026年5月21日｜AI推理突破：15%训练步数实现千步性能

模型发布/更新

Model Releases

5 篇

OpenAI 未公开推理模型自主解决 Erdős 1946 年平面单位距离问题

X·KOLX：orange.ai (@oran_ge)原文 ↗

OpenAI 一个未公布的内部推理模型自主解决了 Erdős 1946 年提出的平面单位距离问题，这是 AI 首次独立解决一个数学领域的著名开放问题。模型的思维链长达 125 页，核心手法是从代数数论引入工具解决离散几何问题，这种跨领域连接是人类 80 年未曾想到的。该模型并非专为数学训练，而是通用推理模型，表明推理能力达到一定阈值后创造性会自然涌现。这一成果被认为是 AI 发展的里程碑时刻。

Qwen 模型自主进化：35 小时独立优化内核，10 倍加速

X·KOLX：阿里通义 Qwen (@Alibaba_Qwen)原文 ↗

阿里巴巴 Qwen 团队展示了一项令人瞩目的成果：模型在约 35 小时的连续自主执行中，独立完成了 432 次内核评估和 1158 次工具调用。它自行编写、编译、分析并迭代优化了 Extend Attention Kernel，最终在多个工作负载上实现了相对于 Triton 参考实现的 10.0 倍几何平均加速。这标志着模型具备了真正的自主编程与优化能力，无需人类干预即可完成复杂系统级任务。

OpenAI 推理模型推翻 1946 年 Erdős 猜想，数学 AI 再创历史

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

OpenAI 的通用推理模型成功推翻了一个自 1946 年以来的 Erdős 平面单位距离猜想，证明了存在无限族构造能多项式改进已知上界。关键在于该模型并非专用定理证明引擎，而是通过增加测试时计算（推理阶段思考）来提升表现，无需大量领域特化训练。这一突破展示了通用推理系统在数学探索中的潜力，能够跨越几何与代数数论（如类域塔理论）的鸿沟，发现人类因学科边界和直觉限制而忽略的路径。外部数学家已验证了该证明的正确性。

Qwen3.7-Max 发布：专为智能体时代打造的旗舰模型

X·KOLX：阿里云 Alibaba Cloud (@alibaba_cloud)原文 ↗

阿里云发布了 Qwen3.7-Max，这是其最新的旗舰模型，专为智能体时代设计。该模型在编码、办公助手和长周期自主任务上表现出色，能连续工作35小时完成内核优化任务，执行超过1000次工具调用而无需人工干预。它支持MCP集成和多智能体编排，且与多种框架兼容，如Claude Code、OpenClaw等。API已在Model Studio上线，开发者可直接使用。

谷歌发布 Gemini 3.5 Flash，低延迟低成本领先多项基准

官方SuperTechFans原文 ↗

谷歌发布了 Gemini 3.5 系列模型，其中 3.5 Flash 版本在多项基准测试中表现优异，输出速度是其他前沿模型的 4 倍，特别适合大规模多步骤代理任务。该模型已通过 Gemini 应用、Google 搜索等渠道上线，开发者可通过 Antigravity 平台和 API 使用。推测其采用混合精度（FP4/FP8）和较少活跃参数，在保持高性能的同时降低成本。这一发布标志着智能代理技术的新突破，有望推动 AI 在复杂场景中的广泛应用。

产品发布/更新

Product

3 篇

Chrome DevTools for Agents 1.0 正式发布

X·KOLX：shao__meng (@shao__meng)原文 ↗

Chrome DevTools for Agents 1.0 正式发布，为 AI Agent 提供在真实浏览器中观察行为、检查输出的能力。它支持 MCP server、CLI 和 Agent skills 三种接入方式，并开放了七个核心能力，包括自动化质量审计、真实用户环境模拟、Chrome 扩展调试、WebMCP 工具调试、内存泄漏检测、会话接管以及第三方工具状态暴露。该工具让 Agent 能“看见浏览器”，显著降低集成门槛，提升调试效率。对于开发 AI Agent 或需要自动化浏览器操作的团队，这是一个重要的基础设施更新。

DeepSeek 组建 Harness 团队，对标 Anthropic Claude Code 开发编程智能体

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

据知情人士透露，中国 AI 实验室 DeepSeek 正在组建一个名为 Harness 的新团队，专注于开发编程智能体产品，直接与 Anthropic 的 Claude Code 竞争。该团队目前在北京开放招聘岗位。此举表明 DeepSeek 正加速布局 AI 编程工具领域，意图在开发者市场中占据一席之地。Claude Code 是 Anthropic 推出的 AI 编程助手，能够理解代码库并自动生成代码，而 DeepSeek 的 Harness 团队将开发类似产品。

Cursor 团队训练 Composer 2.5，而非提示工程，Fireworks 提供 RL 支持

X·KOLX：Fireworks AI (@FireworksAI_HQ)原文 ↗

Cursor 团队没有通过提示工程优化 Composer 2.5，而是直接训练了模型。他们与 Fireworks 合作，在 Fireworks 上运行大规模强化学习（RL）滚动，同时进行生产推理。Fireworks 强调，到 2027 年，训练自己的模型是维持竞争护城河的唯一方式。这一做法展示了从提示工程到模型训练的转变趋势。

行业动态

Industry

5 篇

英伟达 ACIE 成新增长引擎：AI 云收入同比增长超 3 倍

官方IT之家原文 ↗

英伟达在 2027 财年第一财季首次将数据中心收入拆分为超大规模客户和 ACIE（AI 云、工业、企业）两类。ACIE 收入约 370 亿美元，环比增长 31%，其中 AI 云收入同比增长超 3 倍，连接全球约 25 万家客户。黄仁勋认为，由于工业和企业可触达经济活动规模达 50-80 万亿美元，ACIE 增速有望长期快于超大规模客户。边缘计算收入 64 亿美元，环比增长 10%，主要来自 Blackwell 工作站需求。英伟达还提到与 Uber 合作，计划 2028 年前支持近 30 个城市的 Robotaxi 车队。

SpaceX S-1 披露：Anthropic 每月支付 12.5 亿美元租用算力

官方Simon Willison’s Weblog原文 ↗

SpaceX 在 S-1 文件中披露，已与 Anthropic 签订云服务协议，Anthropic 每月支付 12.5 亿美元租用 COLOSSUS 和 COLOSSUS II 的算力，协议持续至 2029 年 5 月。这笔交易凸显了 AI 公司对算力的巨大需求，以及 SpaceX 利用其计算资源支持第三方 AI 应用的战略。Anthropic 的 Grok 5 模型正在 COLOSSUS II 上训练，显示了 SpaceX 在 AI 基础设施领域的竞争力。

Meta 泄露音频：用工程师工作痕迹训练编程 AI，同时裁员 8000

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Meta 在 4 月 30 日的全员大会上泄露音频显示，公司正利用自家工程师的工作痕迹（包括代码编辑、测试、修复、工具选择等步骤）来训练编程 AI。扎克伯格认为，让模型观察“真正聪明的人”完成任务，比使用外包编写的示例数据更有效。这种“行为克隆”方法不仅教 AI 什么是正确代码，还教它如何从模糊任务逐步推导出解决方案。与此同时，Meta 计划裁员约 8000 人（占员工 10%），并将约 7000 人转向 AI 相关工作。这意味着人类专家的经验正在被转化为训练数据，然后被 AI 压缩吸收。

FDE 是什么？为何 OpenAI、Anthropic 力推，或成下一个热门职业

X·KOLX：shao__meng (@shao__meng)原文 ↗

Forward Deployed Engineering (FDE) 是一种驻场工程师角色，源于 Palantir，现被 OpenAI、Anthropic 等 AI 公司大力推广。其核心逻辑是：当 AI 模型能力趋于商品化，真正的竞争优势在于将 AI 嵌入具体公司的业务流中，这需要工程师驻场完成。FDE 工作分三阶段：审计（诊断工作流并决定哪些环节上 Agent）、评估（构建商业信任的评测体系）、部署（在客户现有系统上安全落地）。文章还给出了 30 天转型路线图，适合咨询顾问、PM 或软件工程师切入。

Text Arena 价格-性能帕累托前沿：GPT-4 级质量成本下降 500 倍

X·KOLX：lmarena.ai (@lmarena_ai)原文 ↗

Text Arena 分析了自 2023 年以来大模型价格-性能帕累托前沿的 5 个模式。GPT-4 级别质量的成本从 2023 年的约 50 美元/百万 tokens 降至如今的约 0.10 美元，降幅达 500 倍。高端模型性能提升约 170 分（从 1330 到 1500），同时价格从约 50 美元降至约 20 美元。低价端（低于 0.20 美元）的模型性能从约 1000 分提升至约 1440 分，与顶级模型的差距从 350 分缩小到约 60 分。主要玩家轮换：OpenAI 奠定基准，Meta 加强低价端，Google DeepMind 推动 2025 年跃升，Anthropic 在 2026 年保持领先，xAI 和中国实验室（DeepSeek、零一万物、Kimi、小米、阿里通义）持续推动中端前沿。

论文研究

Research

5 篇

RELEX：仅需15%训练步数，通过秩-1轨迹外推提升LLM推理能力

X·KOLX：arXiv cs.LG (@Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng)原文 ↗

研究发现强化学习（RLVR）训练中模型权重的变化轨迹是低秩且高度可预测的，大部分性能提升来自秩-1近似。基于此，研究者提出RELEX方法，仅需观察少量训练步数（如50步），通过线性回归外推未来检查点（如1000步），即可匹配甚至超越完整RLVR训练的性能。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上验证，RELEX仅需15%的训练步数即可达到同等效果，且能外推至10-20倍于观察窗口。该方法无需额外学习模型，通过丢弃随机优化噪声实现去噪效果，从而提升外推性能。

DelTA：用判别性Token信用分配提升RLVR推理能力

X·KOLX：arXiv cs.LG (@Kaiyi Zhang, Wei Wu, Yankai Lin)原文 ↗

DelTA提出了一种新方法，解决强化学习从可验证奖励（RLVR）中训练大语言模型时，token级信用分配不准确的问题。研究发现，标准RLVR更新中，高频格式token会主导梯度方向，掩盖真正区分高/低奖励的关键token。DelTA通过估计token系数，放大判别性方向、抑制共享模式，使更新更聚焦于推理关键步骤。在7个数学基准上，DelTA在Qwen3-8B和14B上分别平均提升3.26和2.62分，代码生成和跨领域任务也验证了其泛化能力。

Mem-π：让AI智能体学会“何时生成”而非“检索”记忆

X·KOLX：arXiv cs.AI (@Xiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian)原文 ↗

Mem-π 是一种新型自适应记忆框架，它让大语言模型智能体在需要时动态生成指导，而不是从外部存储中检索静态条目。该框架使用独立的语言或视觉语言模型，基于当前上下文决定是否生成以及生成什么指导，并通过决策-内容解耦的强化学习目标进行训练。在网页导航、终端工具使用和文本交互等基准测试中，Mem-π 相比检索式记忆和之前强化学习优化的基线方法表现更优，在网页导航任务上实现了超过30%的相对提升。

Agent JIT 编译：将网页操作延迟降低 10 倍

X·KOLX：arXiv cs.AI (@Caleb Winston, Ron Yifeng Wang, Azalia Mirhoseini, Christos Kozyrakis)原文 ↗

现有网页操作智能体（如 Browser-Use、OpenAI CUA）采用顺序的“抓取-截图-执行”循环，每次迭代都需要调用 LLM，导致高延迟和频繁错误。研究者提出 Agent JIT 编译方法，将任务描述直接编译为可执行代码，包含 LLM 调用、工具调用和并行化。该方法包含三个组件：JIT-Planner 生成多个代码计划并选择最低成本方案；JIT-Scheduler 通过蒙特卡洛成本估计探索并行策略；不变式工具协议减少错误工具使用。在 5 个网页应用上，JIT-Planner 相比 Browser-Use 实现 10.4 倍加速和 28% 准确率提升，JIT-Scheduler 相比 OpenAI CUA 实现 2.4 倍加速和 9% 准确率提升。

DeepWeb-Bench：更难的深度研究基准，揭示模型推理短板

X·KOLX：arXiv cs.AI (@Sixiong Xie, Zhuofan Shi, Haiyang Shen, Jiuzheng Wang, Siqi Zhong, Mugeng Liu, Chongyang Pan, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma)原文 ↗

DeepWeb-Bench 是一个新的深度研究基准，旨在评估 AI 模型在开放网络上进行复杂研究的能力。与现有基准不同，该基准要求模型进行大规模证据收集、跨来源整合和长链条多步推理，难度显著提升。研究对九个前沿模型进行了评估，发现检索并非主要瓶颈（仅占12-14%错误），而推导和校准失败占70%以上。强模型和弱模型的失败模式不同：强模型主要因推导不完整出错，弱模型则因虚假精确性出错。该基准还揭示了模型在领域上的真实专长差异，跨模型一致性仅为0.61。

195

今日事件

一手报道

新模型

信源