AITOP 日报｜2026年6月1日｜NVIDIA、MiniMax 双雄发布，AI 物理化与开源崛起

模型发布/更新

Model Releases

5 篇

NVIDIA 开源 Cosmos 3：首个物理 AI 推理与行动全能模型

官方Hugging Face: Blog原文 ↗

NVIDIA 发布了 Cosmos 3，这是首个开源的物理 AI 全能模型，能够同时进行推理和行动。该模型基于多模态输入（如视觉、语言）理解物理世界，并生成可执行的动作序列。Cosmos 3 在机器人、自动驾驶等需要物理交互的领域具有重大意义，因为它将感知、推理和行动整合在一个模型中。NVIDIA 在 Hugging Face 上开源了该模型，开发者可以直接使用或微调。

MiniMax M3 发布：1M 上下文、稀疏注意力、原生多模态

X·KOLX：歸藏(guizang.ai) (@op7418)原文 ↗

MiniMax 正式发布大版本模型升级 MiniMax M3，核心亮点包括标配 1M 超长上下文、采用新的 MSA（MoE with Segment-wise Attention）稀疏注意力架构，以及从训练起就融合了文本、图片、视频和桌面操作的原生多模态能力。MSA 架构在 100 万上下文下每 token 计算量仅为上一代的约 1/20，大幅提升可落地性。API 价格同步更新，小于 512k 的 API 限时五折（7 天）。模型权重和技术报告将在约 10 天后开源。

NVIDIA 发布 Cosmos 3：首个全开放物理 AI 全能模型

X·KOLX：NVIDIA AI (@NVIDIAAI)原文 ↗

NVIDIA 宣布推出 Cosmos 3，号称全球首个完全开放的全能模型，原生支持视觉推理、世界生成和动作生成。该模型提供 Super（32B）和 Nano（8B）两个版本，面向物理 AI 领域的研究与开发。Cosmos 3 的开源特性有望加速机器人、自动驾驶等物理世界交互系统的训练与部署，降低开发者门槛。

JetBrains 发布 Mellum2：12B MoE 模型

官方Hugging Face: Blog原文 ↗

JetBrains 发布了 Mellum2，一个 12B 参数的混合专家（MoE）模型，专为代码生成和软件工程任务优化。该模型在 HumanEval 和 SWE-bench 等基准测试中表现优异，超越了同等规模的模型。Mellum2 基于 JetBrains 的代码数据训练，旨在为开发者提供更高效、更准确的代码补全和生成能力。该模型现已开源，可在 Hugging Face 上获取。

KwaiKeye 开源 Keye VL 2.0-30B-A3B：30B 参数、3B 活跃，视频理解逆直觉提升

X·KOLX：berryxia (@berryxia)原文 ↗

KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B，总参数 30B 但活跃参数仅 3B，采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文，视频理解能力随输入帧数增加而准确率上升，打破长视频导致模型迷失的直觉。在多个长视频基准上，其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解，是多模态领域的重要进展。

产品发布/更新

Product

5 篇

微软 Agent Governance Toolkit 实现：安全 AI 智能体工具使用

X·KOLX：marktechpost (@Sana Hassan)原文 ↗

本文教程基于微软的 Agent Governance Toolkit，构建了一个受治理的 AI 智能体工作流。该实现中，智能体不能直接执行工具，所有操作必须先通过治理层，该层会检查智能体身份、信任分数、风险等级、请求工具、操作类型、敏感度等。通过策略、审批、审计日志和风险控制，确保 AI 智能体工具使用的安全性。该实现可在 Colab 中运行，为开发者提供了一个可参考的治理框架。

Nvidia 在 GTC Taipei 发布 Cosmos 3 世界模型、Alpamayo 2 Super 驾驶模型及开源人形机器人平台

X·KOLX：Decoder (@Maximilian Schreiner)原文 ↗

Nvidia 在 GTC Taipei 上推出了一系列面向机器人、自动驾驶和视频系统的模型。核心产品包括新的世界模型 Cosmos 3、大幅升级的驾驶模型 Alpamayo 2 Super，以及一个开源的人形机器人参考平台。这些发布标志着 Nvidia 在物理 AI 领域的重大投入，旨在为机器人提供更强大的感知、规划和交互能力。Cosmos 3 能够生成更逼真的虚拟环境，Alpamayo 2 Super 提升了自动驾驶的决策精度，而开源平台则降低了人形机器人研发的门槛。

英伟达 Isaac GR00T 人形机器人发布：基于宇树 H2 打造，年底推出

官方IT之家原文 ↗

英伟达发布首款基于 Jetson Thor 和 Isaac GR00T 平台的开放式人形机器人参考设计，整合宇树 H2 Plus 机器人底座与 Sharpa Wave 灵巧手，全身 75 个自由度，配备 Blackwell GPU 实现 2070 FP4 teraflops 算力。该设计统一了开发流程，帮助研究团队从启动到验证更快迭代。机器人身高 1.8 米，重 68 千克，续航约 3 小时，支持远程急停。英伟达还计划支持宇树 G1 机器人，并将于 2026 年底由宇树推出。

Decart 发布持久化多人协作世界模型，解耦世界状态与视觉渲染

X·KOLX：berryxia (@berryxia)原文 ↗

Decart 发布了一个非视频生成的持久化、多人协作世界模型，核心创新在于将「世界状态」与「视觉渲染」彻底解耦。这意味着世界不再是逐帧生成的画面，而是一个持续运行、可被用户实时修改、并能从任意视角稳定观测的结构化环境。该模型支持多人同时在线交互，是目前最接近「可交互持久世界」的尝试。这一突破为游戏、虚拟世界和协作式 AI 应用提供了全新范式。

Nvidia RTX Spark 让 Windows 本地 AI 智能体实用化

X·KOLX：Decoder (@Maximilian Schreiner)原文 ↗

Nvidia 推出 RTX Spark 芯片，结合 Blackwell GPU 与 Arm 架构 Grace CPU，支持最高 128 GB 共享内存，FP4 算力达 1000 TOPS。该芯片旨在让 Windows 设备本地运行 AI 智能体成为现实，对标 Apple Silicon 和高通。ASUS、Dell、HP、Lenovo、Microsoft Surface 和 MSI 等厂商计划从 2026 年秋季起推出首批搭载该芯片的设备。这标志着 Windows 平台在本地 AI 处理能力上的重大突破。

行业动态

Industry

5 篇

IBM：企业AI规模化依赖智能体逻辑而非LLM

官方Hugging Face: Blog原文 ↗

IBM研究指出，当前企业AI采用率低的关键原因在于过度关注大型语言模型（LLM）本身，而忽视了智能体逻辑（Agent Logic）的重要性。智能体逻辑包括任务分解、工具调用、状态管理和错误处理等结构化流程，这些才是实现可靠、可扩展企业AI应用的核心。文章提出，企业应构建基于智能体逻辑的架构，而非单纯追求更强大的LLM，以实现AI的规模化落地。

英伟达与台积电将AI引入晶圆厂，推动半导体设计与制造

官方IT之家原文 ↗

英伟达宣布台积电正采用其加速计算与AI技术，推动半导体设计与制造全流程发展。双方合作涵盖计算光刻、晶体管仿真、制程控制及晶圆厂运营优化等领域，利用英伟达GPU和CUDA库加速任务。例如，cuLitho将光刻成本效益提升20%-50%，cuEST加速化学仿真50倍。此外，台积电还使用Metropolis平台提升缺陷检测，并探索Omniverse构建数字孪生晶圆厂。此举旨在缩短生产周期、提升能效和良率，应对先进制程的复杂挑战。

Runway 与 NVIDIA 等成立 Cosmos Coalition，开源物理 AI 世界模型

X·KOLX：Runway ML (@runwayml)原文 ↗

Runway 宣布作为创始成员加入 Cosmos Coalition，这是一个由 NVIDIA 和多家顶级 AI 实验室发起的全球性倡议，旨在共同构建并开源面向物理 AI 的前沿世界模型。该联盟将通过一个通用的开放生态系统，加速世界模型的研究与开发，推动物理 AI 的进步。此举有望降低物理 AI 的门槛，促进跨机构协作，为机器人、自动驾驶等领域提供基础模型。

AI Agent 基础设施战从 DNS 开始：DNS-AID 项目解析

X·KOLX：岚叔 (@lufzzliz)原文 ↗

Linux Foundation 旗下的 DNS-AID 项目旨在为 AI agents 构建基于 DNS 的发现机制，类似于互联网的电话簿。通过类似 `_agent._protocol._agents.example.com` 的 DNS 记录，agents 可以找到彼此并获取 MCP、A2A、HTTPS 等连接信息，无需硬编码地址或中心化注册表。这解决了 agent 互发现的基础设施问题，复用现有 DNS 体系，支持 DNSSEC 验证，便于企业纳管。但后续的身份信任、权限控制、责任归属和结算问题仍需解决。

OpenAI Robotics 招聘全栈硬件/ML工程师，打造实用机器人

X·KOLX：Sam Altman (@sama)原文 ↗

OpenAI 宣布成立 OpenAI Robotics 部门，并开始招聘全栈硬件、运营、系统和机器学习工程师。该部门由 Aditya Ramesh 领导的世界模拟研究项目在过去一年中演变而来，专注于编程和制造对社会有用的机器人。短期目标是支持技术工人建设未来基础设施，长期愿景是让每个人拥有能完成任何任务的个人机器人。OpenAI 强调机器人硬件与 ML 研究的协同设计，并邀请有卓越成就的工程师加入。

论文研究

Research

4 篇

Agent 系统扩展新指标：有效反馈计算（EFC）

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

一篇新论文指出，AI Agent 系统的扩展不应仅依赖增加计算量，而应关注有效反馈的利用。作者提出“有效反馈计算”（EFC）指标，只计算那些能教会智能体有用信息并改变后续决策的反馈。实验表明，任务归一化的 EFC 比原始计算量更能预测任务失败，在预算相同的情况下，更好的反馈将成功率从 0.27 提升至 0.90。该研究强调 Agent 系统本质上是“反馈机器”，而非简单的模型封装。

The Efficiency Frontier：上下文管理新论文，部署感知策略省 25% Token

X·KOLX：elvis (@omarsar0)原文 ↗

这篇论文提出了一种部署感知的上下文策略选择方法，将检索、压缩和全上下文等策略统一建模为成本-性能优化问题。通过引入对数效用函数和复用参数 N，揭示了不同策略在不同部署条件下的最优切换点。在 5000 个 HotpotQA 实例上，该方法在相同性能下减少了约 25% 的有效 Token 使用，高性能场景下压缩策略比全上下文便宜 50% 以上。这项工作为 AI 代理的上下文管理提供了理论指导，避免了孤立基准测试的误导。

自我改进智能体的关键建议：大模型并非最佳进化器

X·KOLX：elvis (@omarsar0)原文 ↗

一项新研究挑战了自我进化智能体的普遍假设，即更强的模型能写出更好的提示和技能编辑。实验表明，模型生成进化更新的能力在不同能力级别上基本持平，Qwen3.5-9B与Claude Opus 4.6表现相当。而受益于这些更新的能力呈倒U型曲线，中等模型效果最佳，弱模型无法激活更新，强模型改进空间有限。因此，建议将廉价模型用于进化器角色，昂贵模型用于求解器角色，以最大化收益。该发现对构建长期任务智能体的开发者具有重要指导意义。

MIT等研究：AI让人感觉高效，实际收益微乎其微

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

MIT、斯坦福、纽约大学和普林斯顿联合发表论文，发现人们在使用AI时会产生“效率增益错觉”——即使实际效率提升很小甚至为负，仍感觉AI节省了大量时间。在2691名参与者的三项预注册实验中，人们高估了AI对简单任务（如算术、拼写、回忆、短改写）的节省时间，平均预期节省55.7秒，实际仅7.5秒。研究指出，AI使用的隐性成本在于界面摩擦（写提示、等待、检查等），而非智能不足。更关键的是，AI使用会自我强化：仅使用两次后，参与者就更倾向于再次使用AI，即使自己完成更快。这种依赖并非戏剧性的，而是悄无声息地重新校准了人们对自身能力的判断。

技巧与观点

Tips & Takes

3 篇

136

今日事件

一手报道

新模型

信源

AITOP日报

模型发布/更新

NVIDIA 开源 Cosmos 3：首个物理 AI 推理与行动全能模型

MiniMax M3 发布：1M 上下文、稀疏注意力、原生多模态

NVIDIA 发布 Cosmos 3：首个全开放物理 AI 全能模型

JetBrains 发布 Mellum2：12B MoE 模型

KwaiKeye 开源 Keye VL 2.0-30B-A3B：30B 参数、3B 活跃，视频理解逆直觉提升

产品发布/更新

微软 Agent Governance Toolkit 实现：安全 AI 智能体工具使用

Nvidia 在 GTC Taipei 发布 Cosmos 3 世界模型、Alpamayo 2 Super 驾驶模型及开源人形机器人平台

英伟达 Isaac GR00T 人形机器人发布：基于宇树 H2 打造，年底推出

Decart 发布持久化多人协作世界模型，解耦世界状态与视觉渲染

Nvidia RTX Spark 让 Windows 本地 AI 智能体实用化

行业动态

IBM：企业AI规模化依赖智能体逻辑而非LLM

英伟达与台积电将AI引入晶圆厂，推动半导体设计与制造

Runway 与 NVIDIA 等成立 Cosmos Coalition，开源物理 AI 世界模型

AI Agent 基础设施战从 DNS 开始：DNS-AID 项目解析

OpenAI Robotics 招聘全栈硬件/ML工程师，打造实用机器人

论文研究

Agent 系统扩展新指标：有效反馈计算（EFC）

The Efficiency Frontier：上下文管理新论文，部署感知策略省 25% Token

自我改进智能体的关键建议：大模型并非最佳进化器

MIT等研究：AI让人感觉高效，实际收益微乎其微

技巧与观点

Simon Willison：与编程智能体协作时，记录对话比提交信息更重要

Vikingmute 分享 AI 代码审查实战：Review Forge 流程

dotey 分享 /goal 最佳实践：Checklist 与分阶段设计