AITOP 日报｜2026年5月19日｜AI 智能体生态爆发，EnvFactory 与 Reversa 突围

模型发布/更新

Model Releases

4 篇

地平线开源4亿参数机器人小脑大模型HoloMotion-1，实现舞蹈健身搬箱子

地平线正式开源HoloMotion-1，这是一个4亿参数级的机器人小脑大模型，专为人形机器人全身控制设计。相比以往百万、千万级模型，HoloMotion-1将规模提升到新量级，并能在端侧实现约300FPS实时推理，远超常见50Hz控制频率。该模型结合MoE稀疏激活与KV-cache机制，降低推理开销，并使用互联网视频、光学动捕、VR遥操作等多来源数据训练。在真实机器人实验中，HoloMotion-1展示了零样本迁移能力，可完成高动态舞蹈、爬行、健身、搬箱子等复杂动作。代码、模型、技术报告均已开源。

HiDream 开源 8B 图像模型，挑战传统扩散架构

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

HiDream 开源了 8B 参数的图像模型 HiDream-O1-Image，声称性能与 27B 的 Qwen-Image 等更大模型持平。该模型采用像素级统一 Transformer，无需 VAE 和文本编码器，直接在原始像素上端到端处理。它支持文生图、长文本渲染、指令编辑、主体个性化及故事板生成等多种任务。内置推理驱动的提示代理，能先理解用户意图再生成，在长文本渲染基准上接近 200B+ 模型的表现。这暗示传统扩散管线可能不再是唯一的主流路径。

Agora-1 多智能体世界模型：让多个玩家共享一致现实

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Odyssey 团队推出 Agora-1，一个多智能体世界模型，解决了世界模型在多人交互场景下的核心瓶颈：保持共享现实的一致性。传统世界模型只能处理单玩家预测，而 Agora-1 支持最多 4 个人类或 AI 智能体同时在模拟世界中实时行动，模型需要追踪碰撞、时序、意图和后果。这意味着世界模型从单玩家预测器转变为共享实时环境，其真实性不再只是视觉保真度，而是当多个智能体从不同方向推动世界时，它能否保持连贯。这是对世界模型能否像游戏引擎一样服务多玩家的首次严肃测试。

Raven 3.5 专精客服，小模型击败 GPT-5 和 Claude Sonnet

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

PolyAI 发布 Raven 3.5，一个专为客服场景设计的小型语音 AI 模型，在四个客服基准测试中全面超越 GPT-5 和 Claude Sonnet 4.6，且延迟低于 300 毫秒。该研究证明了领域专用模型在特定任务上可以大幅超越百倍规模的通用模型。同时，PolyAI 推出两款新产品：ADK（代码优先的智能体开发工具包）和 PolyPhone（10 分钟将网站转为语音 AI 代理），推动企业语音 AI 从呼叫中心项目走向快速部署的基础设施。

产品发布/更新

Product

5 篇

Google 发布完整开源智能体示例库，含端到端代码与一键部署

X·KOLX：Ate-a-Pi (@svpino)原文 ↗

Google 发布了一个完全开源的智能体示例库，包含高度复杂的端到端智能体实现。该库提供完整的文档、源代码，并支持一键部署。视频中展示了其中一个最酷的示例。这一举措旨在降低开发者构建智能体的门槛，推动 AI 应用落地。对于研究智能体或构建自动化流程的开发者来说，这是一个可以直接参考和使用的宝贵资源。

英伟达交付自研通用 CPU Vera，专为 Agent 编排优化

X·KOLX：歸藏(guizang.ai) (@op7418)原文 ↗

英伟达开始交付其首款自研通用 CPU NVIDIA Vera，专为高并发、高吞吐的 Agent 编排和工具调用场景设计。该 CPU 负责调度编排和工具调用，而模型推理仍在 GPU 上进行，旨在解决密集 Agent 工作下的强 IO、内存和调度压力。首批交付对象包括 Anthropic、OpenAI、xAI 和 Oracle Cloud，其中 xAI 由马斯克亲自接待。这标志着英伟达从 GPU 向 CPU 领域扩展，为 Agentic AI 时代提供专用硬件。

Cursor 发布 Composer 2.5，基于 Kimi K2.5，马斯克证实使用 Colossus 2 算力训练

X·KOLX：shao__meng (@shao__meng)原文 ↗

Cursor 发布了 Composer 2.5 模型，仍然基于 Kimi K2.5，但通过三项关键训练创新实现了显著提升：定向文本反馈强化学习解决了长任务中的信用分配难题；合成训练数据量是 Composer 2 的 25 倍，其中 feature deletion 方法让模型从代码库中重新实现被删除的特性；基础设施层使用 Muon 优化器和分布式正交化，1T 模型单步仅需 0.2 秒。同时，Cursor 与 SpaceXAI 合作，马斯克亲自发帖证实 Composer 2.5 已开始使用 Colossus 2 算力训练，并正在合作从零训练一个算力规模 10 倍以上的全新模型。Composer 2.5 重点改进了长任务持续推进、复杂指令遵循和协作交互自然度，并专门优化了沟通风格和投入度校准两个现有 benchmark 难以衡量的维度。

Cloudflare 集成 Claude Managed Agents，提供全球可扩展的隔离执行环境

X·KOLX：Cloudflare Blog (@Mike Nomitch)原文 ↗

Cloudflare 宣布与 Anthropic 合作，将 Claude Managed Agents 集成到其平台中，为自主代码交付提供快速、隔离的执行环境。开发者现在可以全球范围内扩展代理工作流，同时严格控制对私有后端的访问，并轻松定制代理的工具和运行时。这一集成解决了代理部署中的安全性和可扩展性问题，使得构建者能够更安全、高效地运行 AI 代理。对于需要大规模部署自主代理的团队来说，这是一个重要的基础设施升级。

OpenAI Codex Cookbook 系列：Goals 从 Prompt 到自主目标

X·KOLX：shao__meng (@shao__meng)原文 ↗

OpenAI 发布了 Codex Cookbook 系列中关于 Goals 的深度指南，详细介绍了如何从传统的 prompt 模式（ask→work→result→wait）升级到 Goals 模式（work→check→continue or complete）。Goals 是线程作用域的持久状态，允许 Codex 在空闲时基于证据自主决定下一步，无需用户每轮重复指令。文章提供了强 Goal 的六要素模板（结果、验证面、约束、边界、迭代策略、阻塞停止条件），并用复现 Deep Hedging 论文的案例展示了如何将不确定的研究任务 Goal 化。Goals 最适合持久目标、基于证据的终点、路径需多轮探查的场景，如性能优化、flaky 测试调查、依赖迁移等。

行业动态

Industry

5 篇

PyCon US 2026 闪电演讲：LLM 过去六个月的五个关键变化

官方Simon Willison’s Weblog原文 ↗

Simon Willison 在 PyCon US 2026 上用五分钟闪电演讲总结了 LLM 领域过去六个月的发展。他重点介绍了 2025 年 11 月的“拐点”，当时最佳模型在三大提供商间易手五次，最终 Claude Opus 4.5 胜出。更关键的是，编码代理从“偶尔可用”跨越到“日常可用”，显著减少了人工修复错误的时间。他还分享了个人项目 micro-javascript，一个用 Python 实现的 JavaScript 解释器，展示了多语言嵌套运行的技术趣味。演讲通过“鹈鹕骑自行车”SVG 测试直观对比模型能力，强调编码代理的进步是最大亮点。

Anthropic 收购 Stainless，为 Claude 智能体打造更优 SDK 与连接能力

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Anthropic 收购了 API 工具链公司 Stainless，旨在提升 Claude 智能体与真实软件系统的连接能力。Stainless 自 Claude API 早期就负责生成所有官方 SDK，此次收购将强化 Anthropic 的开发者平台。这表明，当企业开始让智能体执行实际任务时，连接基础设施将与模型智能同等重要。收购后，Claude 将获得更干净的 SDK、CLI 和 MCP 服务器支持。

谷歌联手黑石组建AI云公司：50亿美元起步，2027年冲刺500兆瓦

官方IT之家原文 ↗

谷歌与全球最大私募股权集团黑石合作，计划在美国成立一家新的AI云公司，初期黑石投入50亿美元股权资本，整体计算投资规模预计约250亿美元。新公司将依托谷歌自研TPU芯片和云能力，挑战CoreWeave等AI算力服务商，被视为谷歌最大规模的对外芯片商业化尝试。目标是在2027年上线500兆瓦容量，相当于一座中等城市的用电需求。此举将加剧谷歌与英伟达在AI算力市场的竞争，黑石作为AI基础设施领域最活跃的投资方之一，已拥有超过1500亿美元数据中心资产。

AI 热潮冲击苹果 DRAM 议价权，采购策略转向保供

官方IT之家原文 ↗

AI 数据中心对高性能存储芯片的需求爆发式增长，导致苹果在 DRAM 采购中的传统议价主导地位被削弱。苹果的采购策略已从追求最优价格转向确保足够货源，因为英伟达、谷歌等企业签下长期供货协议，改变了供应链格局。分析师预测 2026 年 DRAM 价格同比涨幅达 194%，消费级 LPDDR 内存也被用于 AI 服务器，加剧供应短缺。苹果 CEO 库克承认 DRAM 供应减少且可能涨价，公司正大量采购以稳定供应。三星、SK 海力士等厂商已要求客户签署长达五年的严格法律合同。

Karpathy 加入 Anthropic，重返 LLM 前沿研发

X·KOLX：Andrej Karpathy (@karpathy)原文 ↗

AI 领域知名人物 Andrej Karpathy 宣布加入 Anthropic，重返大语言模型前沿研发。他认为未来几年将是 LLM 发展的关键形成期，对此充满期待。Karpathy 同时表示仍对教育保持热情，计划未来继续从事相关工作。这一消息引发社区广泛关注，被视为 Anthropic 在 AI 人才争夺中的重要收获。

论文研究

Research

5 篇

EnvFactory：自动合成可执行环境与鲁棒RL，提升工具使用Agent性能

X·KOLX：arXiv cs.LG (@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo)原文 ↗

EnvFactory是一个全自动框架，解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境，通过拓扑感知采样和校准精炼合成自然的多轮轨迹，生成带有隐式意图的查询。仅用85个已验证环境（远少于此前工作的5倍以上），EnvFactory就生成了2575条SFT和RL轨迹，并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成，为Agentic RL提供了可扩展、可扩展且鲁棒的基础。

GIM 基准：通过多认知域整合任务评估 LLM

X·KOLX：arXiv cs.LG (@Rohit Patel, Alexandre Rezende, Steven McClain)原文 ↗

GIM（Grounded Integration Measure）是一个包含 820 道原创问题的新基准，旨在通过要求模型协调多种认知操作（如约束满足、状态跟踪、认知警觉、受众校准）来评估 LLM，而非单纯增加知识难度或抽象推理。该基准使用公共-私有问题拆分以检测数据污染，并基于超过 20 万次模型响应校准了 IRT 模型，提供更稳健的能力估计。研究对 22 个模型和 47 种测试配置进行了全面评估，发现思考预算和量化等家族内配置选择与模型选择同等重要。GIM 解决了现有基准在记忆与能力、推理与实践脱节上的问题，为 LLM 评估提供了新视角。

ESI-Bench：具身空间智能基准，揭示感知-行动闭环关键缺陷

X·KOLX：arXiv cs.AI (@Yining Hong, Jiageng Liu, Han Yin, Manling Li, Leonidas Guibas, Li Fei-Fei, Jiajun Wu, Yejin Choi)原文 ↗

研究团队提出 ESI-Bench，一个基于 OmniGibson 的具身空间智能基准，涵盖 10 类任务和 29 个子类，要求智能体主动探索而非被动感知。实验发现，主动探索显著优于被动多视角，但大多数失败源于“行动盲视”——错误行动导致错误观察，进而引发级联错误。即使引入 3D 空间理解，不完美的 3D 表示反而比 2D 基线更差。人类研究显示，模型缺乏元认知能力，过早下结论且不修正信念，暴露了感知与行动闭环中的关键鸿沟。

SGT：用语义生成调优统一多模态模型的视觉理解与生成

X·KOLX：arXiv cs.AI (@Songsong Yu, Yuxin Chen, Ying Shan, Yanwei Li)原文 ↗

统一多模态模型（UMMs）试图在单一架构中整合视觉理解与视觉生成，但现有训练范式将两者解耦，导致表征空间错位。本文首次系统研究生成式后训练，发现高层语义任务（如图像分割）可作为最优代理，通过提供结构语义来增强视觉感知和生成布局保真度。作者提出语义生成调优（SGT）范式，利用分割作为生成代理对齐多模态能力。机制分析表明SGT改善了特征线性可分性和视觉-文本注意力分配。实验证明SGT在主流基准上持续提升多模态理解和生成保真度。

URGE：无需梯度的扩散模型推理时引导新方法

X·KOLX：arXiv cs.LG (@Lifu Wei, Yinuo Ren, Naichen Shi, Yiping Lu)原文 ↗

URGE（Unbiased Resampling via Girsanov Estimation）是一种无偏、无梯度的推理时缩放算法，用于扩散生成模型。它通过Girsanov测度变换对模拟轨迹进行路径重要性重加权，并定期重采样，无需计算分数、Hessian或PDE。该方法避免了现有技术中的偏差和高计算开销，在合成测试和扩散模型基准上优于现有推理时引导方法，且实现更简单。URGE建立了路径与粒子级序贯蒙特卡洛之间的等价性，确保两种方案产生相同的无偏终端分布。

技巧与观点

Tips & Takes

3 篇

144

今日事件

一手报道

新模型

信源

AITOP日报

模型发布/更新

地平线开源4亿参数机器人小脑大模型HoloMotion-1，实现舞蹈健身搬箱子

HiDream 开源 8B 图像模型，挑战传统扩散架构

Agora-1 多智能体世界模型：让多个玩家共享一致现实

Raven 3.5 专精客服，小模型击败 GPT-5 和 Claude Sonnet

产品发布/更新

Google 发布完整开源智能体示例库，含端到端代码与一键部署

英伟达交付自研通用 CPU Vera，专为 Agent 编排优化

Cursor 发布 Composer 2.5，基于 Kimi K2.5，马斯克证实使用 Colossus 2 算力训练

Cloudflare 集成 Claude Managed Agents，提供全球可扩展的隔离执行环境

OpenAI Codex Cookbook 系列：Goals 从 Prompt 到自主目标

行业动态

PyCon US 2026 闪电演讲：LLM 过去六个月的五个关键变化

Anthropic 收购 Stainless，为 Claude 智能体打造更优 SDK 与连接能力

谷歌联手黑石组建AI云公司：50亿美元起步，2027年冲刺500兆瓦

AI 热潮冲击苹果 DRAM 议价权，采购策略转向保供

Karpathy 加入 Anthropic，重返 LLM 前沿研发

论文研究

EnvFactory：自动合成可执行环境与鲁棒RL，提升工具使用Agent性能

GIM 基准：通过多认知域整合任务评估 LLM

ESI-Bench：具身空间智能基准，揭示感知-行动闭环关键缺陷

SGT：用语义生成调优统一多模态模型的视觉理解与生成

URGE：无需梯度的扩散模型推理时引导新方法

技巧与观点

Claude Code 核心开发者 Thariq 分享「开发日志」提示词

Fchollet：编程智能体像盲松鼠，需用约束引导

一行代码实现LLM应用全链路可观测