VOL.2026.05.21·195 STORIES·AITOP DAILY

AITOP日报

二〇二六年五月二十一日 星期四DAILY · 每早八时
01

模型发布/更新

Model Releases
5

OpenAI 未公开推理模型自主解决 Erdős 1946 年平面单位距离问题

X·KOLX:orange.ai (@oran_ge)

OpenAI 一个未公布的内部推理模型自主解决了 Erdős 1946 年提出的平面单位距离问题,这是 AI 首次独立解决一个数学领域的著名开放问题。模型的思维链长达 125 页,核心手法是从代数数论引入工具解决离散几何问题,这种跨领域连接是人类 80 年未曾想到的。该模型并非专为数学训练,而是通用推理模型,表明推理能力达到一定阈值后创造性会自然涌现。这一成果被认为是 AI 发展的里程碑时刻。

Qwen 模型自主进化:35 小时独立优化内核,10 倍加速

X·KOLX:阿里通义 Qwen (@Alibaba_Qwen)

阿里巴巴 Qwen 团队展示了一项令人瞩目的成果:模型在约 35 小时的连续自主执行中,独立完成了 432 次内核评估和 1158 次工具调用。它自行编写、编译、分析并迭代优化了 Extend Attention Kernel,最终在多个工作负载上实现了相对于 Triton 参考实现的 10.0 倍几何平均加速。这标志着模型具备了真正的自主编程与优化能力,无需人类干预即可完成复杂系统级任务。

OpenAI 推理模型推翻 1946 年 Erdős 猜想,数学 AI 再创历史

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

OpenAI 的通用推理模型成功推翻了一个自 1946 年以来的 Erdős 平面单位距离猜想,证明了存在无限族构造能多项式改进已知上界。关键在于该模型并非专用定理证明引擎,而是通过增加测试时计算(推理阶段思考)来提升表现,无需大量领域特化训练。这一突破展示了通用推理系统在数学探索中的潜力,能够跨越几何与代数数论(如类域塔理论)的鸿沟,发现人类因学科边界和直觉限制而忽略的路径。外部数学家已验证了该证明的正确性。

Qwen3.7-Max 发布:专为智能体时代打造的旗舰模型

X·KOLX:阿里云 Alibaba Cloud (@alibaba_cloud)

阿里云发布了 Qwen3.7-Max,这是其最新的旗舰模型,专为智能体时代设计。该模型在编码、办公助手和长周期自主任务上表现出色,能连续工作35小时完成内核优化任务,执行超过1000次工具调用而无需人工干预。它支持MCP集成和多智能体编排,且与多种框架兼容,如Claude Code、OpenClaw等。API已在Model Studio上线,开发者可直接使用。

谷歌发布 Gemini 3.5 Flash,低延迟低成本领先多项基准

官方SuperTechFans

谷歌发布了 Gemini 3.5 系列模型,其中 3.5 Flash 版本在多项基准测试中表现优异,输出速度是其他前沿模型的 4 倍,特别适合大规模多步骤代理任务。该模型已通过 Gemini 应用、Google 搜索等渠道上线,开发者可通过 Antigravity 平台和 API 使用。推测其采用混合精度(FP4/FP8)和较少活跃参数,在保持高性能的同时降低成本。这一发布标志着智能代理技术的新突破,有望推动 AI 在复杂场景中的广泛应用。

02

产品发布/更新

Product
3

Chrome DevTools for Agents 1.0 正式发布

X·KOLX:shao__meng (@shao__meng)

Chrome DevTools for Agents 1.0 正式发布,为 AI Agent 提供在真实浏览器中观察行为、检查输出的能力。它支持 MCP server、CLI 和 Agent skills 三种接入方式,并开放了七个核心能力,包括自动化质量审计、真实用户环境模拟、Chrome 扩展调试、WebMCP 工具调试、内存泄漏检测、会话接管以及第三方工具状态暴露。该工具让 Agent 能“看见浏览器”,显著降低集成门槛,提升调试效率。对于开发 AI Agent 或需要自动化浏览器操作的团队,这是一个重要的基础设施更新。

DeepSeek 组建 Harness 团队,对标 Anthropic Claude Code 开发编程智能体

X·KOLX:Pandaily (@contact@pandaily.com (Pandaily))

据知情人士透露,中国 AI 实验室 DeepSeek 正在组建一个名为 Harness 的新团队,专注于开发编程智能体产品,直接与 Anthropic 的 Claude Code 竞争。该团队目前在北京开放招聘岗位。此举表明 DeepSeek 正加速布局 AI 编程工具领域,意图在开发者市场中占据一席之地。Claude Code 是 Anthropic 推出的 AI 编程助手,能够理解代码库并自动生成代码,而 DeepSeek 的 Harness 团队将开发类似产品。

Cursor 团队训练 Composer 2.5,而非提示工程,Fireworks 提供 RL 支持

X·KOLX:Fireworks AI (@FireworksAI_HQ)

Cursor 团队没有通过提示工程优化 Composer 2.5,而是直接训练了模型。他们与 Fireworks 合作,在 Fireworks 上运行大规模强化学习(RL)滚动,同时进行生产推理。Fireworks 强调,到 2027 年,训练自己的模型是维持竞争护城河的唯一方式。这一做法展示了从提示工程到模型训练的转变趋势。

03

行业动态

Industry
5

英伟达 ACIE 成新增长引擎:AI 云收入同比增长超 3 倍

官方IT之家

英伟达在 2027 财年第一财季首次将数据中心收入拆分为超大规模客户和 ACIE(AI 云、工业、企业)两类。ACIE 收入约 370 亿美元,环比增长 31%,其中 AI 云收入同比增长超 3 倍,连接全球约 25 万家客户。黄仁勋认为,由于工业和企业可触达经济活动规模达 50-80 万亿美元,ACIE 增速有望长期快于超大规模客户。边缘计算收入 64 亿美元,环比增长 10%,主要来自 Blackwell 工作站需求。英伟达还提到与 Uber 合作,计划 2028 年前支持近 30 个城市的 Robotaxi 车队。

SpaceX S-1 披露:Anthropic 每月支付 12.5 亿美元租用算力

官方Simon Willison’s Weblog

SpaceX 在 S-1 文件中披露,已与 Anthropic 签订云服务协议,Anthropic 每月支付 12.5 亿美元租用 COLOSSUS 和 COLOSSUS II 的算力,协议持续至 2029 年 5 月。这笔交易凸显了 AI 公司对算力的巨大需求,以及 SpaceX 利用其计算资源支持第三方 AI 应用的战略。Anthropic 的 Grok 5 模型正在 COLOSSUS II 上训练,显示了 SpaceX 在 AI 基础设施领域的竞争力。

Meta 泄露音频:用工程师工作痕迹训练编程 AI,同时裁员 8000

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Meta 在 4 月 30 日的全员大会上泄露音频显示,公司正利用自家工程师的工作痕迹(包括代码编辑、测试、修复、工具选择等步骤)来训练编程 AI。扎克伯格认为,让模型观察“真正聪明的人”完成任务,比使用外包编写的示例数据更有效。这种“行为克隆”方法不仅教 AI 什么是正确代码,还教它如何从模糊任务逐步推导出解决方案。与此同时,Meta 计划裁员约 8000 人(占员工 10%),并将约 7000 人转向 AI 相关工作。这意味着人类专家的经验正在被转化为训练数据,然后被 AI 压缩吸收。

FDE 是什么?为何 OpenAI、Anthropic 力推,或成下一个热门职业

X·KOLX:shao__meng (@shao__meng)

Forward Deployed Engineering (FDE) 是一种驻场工程师角色,源于 Palantir,现被 OpenAI、Anthropic 等 AI 公司大力推广。其核心逻辑是:当 AI 模型能力趋于商品化,真正的竞争优势在于将 AI 嵌入具体公司的业务流中,这需要工程师驻场完成。FDE 工作分三阶段:审计(诊断工作流并决定哪些环节上 Agent)、评估(构建商业信任的评测体系)、部署(在客户现有系统上安全落地)。文章还给出了 30 天转型路线图,适合咨询顾问、PM 或软件工程师切入。

Text Arena 价格-性能帕累托前沿:GPT-4 级质量成本下降 500 倍

X·KOLX:lmarena.ai (@lmarena_ai)

Text Arena 分析了自 2023 年以来大模型价格-性能帕累托前沿的 5 个模式。GPT-4 级别质量的成本从 2023 年的约 50 美元/百万 tokens 降至如今的约 0.10 美元,降幅达 500 倍。高端模型性能提升约 170 分(从 1330 到 1500),同时价格从约 50 美元降至约 20 美元。低价端(低于 0.20 美元)的模型性能从约 1000 分提升至约 1440 分,与顶级模型的差距从 350 分缩小到约 60 分。主要玩家轮换:OpenAI 奠定基准,Meta 加强低价端,Google DeepMind 推动 2025 年跃升,Anthropic 在 2026 年保持领先,xAI 和中国实验室(DeepSeek、零一万物、Kimi、小米、阿里通义)持续推动中端前沿。

04

论文研究

Research
5

RELEX:仅需15%训练步数,通过秩-1轨迹外推提升LLM推理能力

X·KOLX:arXiv cs.LG (@Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng)

研究发现强化学习(RLVR)训练中模型权重的变化轨迹是低秩且高度可预测的,大部分性能提升来自秩-1近似。基于此,研究者提出RELEX方法,仅需观察少量训练步数(如50步),通过线性回归外推未来检查点(如1000步),即可匹配甚至超越完整RLVR训练的性能。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上验证,RELEX仅需15%的训练步数即可达到同等效果,且能外推至10-20倍于观察窗口。该方法无需额外学习模型,通过丢弃随机优化噪声实现去噪效果,从而提升外推性能。

DelTA:用判别性Token信用分配提升RLVR推理能力

X·KOLX:arXiv cs.LG (@Kaiyi Zhang, Wei Wu, Yankai Lin)

DelTA提出了一种新方法,解决强化学习从可验证奖励(RLVR)中训练大语言模型时,token级信用分配不准确的问题。研究发现,标准RLVR更新中,高频格式token会主导梯度方向,掩盖真正区分高/低奖励的关键token。DelTA通过估计token系数,放大判别性方向、抑制共享模式,使更新更聚焦于推理关键步骤。在7个数学基准上,DelTA在Qwen3-8B和14B上分别平均提升3.26和2.62分,代码生成和跨领域任务也验证了其泛化能力。

Mem-π:让AI智能体学会“何时生成”而非“检索”记忆

X·KOLX:arXiv cs.AI (@Xiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian)

Mem-π 是一种新型自适应记忆框架,它让大语言模型智能体在需要时动态生成指导,而不是从外部存储中检索静态条目。该框架使用独立的语言或视觉语言模型,基于当前上下文决定是否生成以及生成什么指导,并通过决策-内容解耦的强化学习目标进行训练。在网页导航、终端工具使用和文本交互等基准测试中,Mem-π 相比检索式记忆和之前强化学习优化的基线方法表现更优,在网页导航任务上实现了超过30%的相对提升。

Agent JIT 编译:将网页操作延迟降低 10 倍

X·KOLX:arXiv cs.AI (@Caleb Winston, Ron Yifeng Wang, Azalia Mirhoseini, Christos Kozyrakis)

现有网页操作智能体(如 Browser-Use、OpenAI CUA)采用顺序的“抓取-截图-执行”循环,每次迭代都需要调用 LLM,导致高延迟和频繁错误。研究者提出 Agent JIT 编译方法,将任务描述直接编译为可执行代码,包含 LLM 调用、工具调用和并行化。该方法包含三个组件:JIT-Planner 生成多个代码计划并选择最低成本方案;JIT-Scheduler 通过蒙特卡洛成本估计探索并行策略;不变式工具协议减少错误工具使用。在 5 个网页应用上,JIT-Planner 相比 Browser-Use 实现 10.4 倍加速和 28% 准确率提升,JIT-Scheduler 相比 OpenAI CUA 实现 2.4 倍加速和 9% 准确率提升。

DeepWeb-Bench:更难的深度研究基准,揭示模型推理短板

X·KOLX:arXiv cs.AI (@Sixiong Xie, Zhuofan Shi, Haiyang Shen, Jiuzheng Wang, Siqi Zhong, Mugeng Liu, Chongyang Pan, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma)

DeepWeb-Bench 是一个新的深度研究基准,旨在评估 AI 模型在开放网络上进行复杂研究的能力。与现有基准不同,该基准要求模型进行大规模证据收集、跨来源整合和长链条多步推理,难度显著提升。研究对九个前沿模型进行了评估,发现检索并非主要瓶颈(仅占12-14%错误),而推导和校准失败占70%以上。强模型和弱模型的失败模式不同:强模型主要因推导不完整出错,弱模型则因虚假精确性出错。该基准还揭示了模型在领域上的真实专长差异,跨模型一致性仅为0.61。

195
今日事件
45
一手报道
31
新模型
69
信源
AITOP · 编辑系统自动生成