NVIDIA 开源 Cosmos 3:首个物理 AI 推理与行动全能模型
NVIDIA 发布了 Cosmos 3,这是首个开源的物理 AI 全能模型,能够同时进行推理和行动。该模型基于多模态输入(如视觉、语言)理解物理世界,并生成可执行的动作序列。Cosmos 3 在机器人、自动驾驶等需要物理交互的领域具有重大意义,因为它将感知、推理和行动整合在一个模型中。NVIDIA 在 Hugging Face 上开源了该模型,开发者可以直接使用或微调。
NVIDIA 发布了 Cosmos 3,这是首个开源的物理 AI 全能模型,能够同时进行推理和行动。该模型基于多模态输入(如视觉、语言)理解物理世界,并生成可执行的动作序列。Cosmos 3 在机器人、自动驾驶等需要物理交互的领域具有重大意义,因为它将感知、推理和行动整合在一个模型中。NVIDIA 在 Hugging Face 上开源了该模型,开发者可以直接使用或微调。
MiniMax 正式发布大版本模型升级 MiniMax M3,核心亮点包括标配 1M 超长上下文、采用新的 MSA(MoE with Segment-wise Attention)稀疏注意力架构,以及从训练起就融合了文本、图片、视频和桌面操作的原生多模态能力。MSA 架构在 100 万上下文下每 token 计算量仅为上一代的约 1/20,大幅提升可落地性。API 价格同步更新,小于 512k 的 API 限时五折(7 天)。模型权重和技术报告将在约 10 天后开源。
NVIDIA 宣布推出 Cosmos 3,号称全球首个完全开放的全能模型,原生支持视觉推理、世界生成和动作生成。该模型提供 Super(32B)和 Nano(8B)两个版本,面向物理 AI 领域的研究与开发。Cosmos 3 的开源特性有望加速机器人、自动驾驶等物理世界交互系统的训练与部署,降低开发者门槛。
JetBrains 发布了 Mellum2,一个 12B 参数的混合专家(MoE)模型,专为代码生成和软件工程任务优化。该模型在 HumanEval 和 SWE-bench 等基准测试中表现优异,超越了同等规模的模型。Mellum2 基于 JetBrains 的代码数据训练,旨在为开发者提供更高效、更准确的代码补全和生成能力。该模型现已开源,可在 Hugging Face 上获取。
KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B,总参数 30B 但活跃参数仅 3B,采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文,视频理解能力随输入帧数增加而准确率上升,打破长视频导致模型迷失的直觉。在多个长视频基准上,其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解,是多模态领域的重要进展。
本文教程基于微软的 Agent Governance Toolkit,构建了一个受治理的 AI 智能体工作流。该实现中,智能体不能直接执行工具,所有操作必须先通过治理层,该层会检查智能体身份、信任分数、风险等级、请求工具、操作类型、敏感度等。通过策略、审批、审计日志和风险控制,确保 AI 智能体工具使用的安全性。该实现可在 Colab 中运行,为开发者提供了一个可参考的治理框架。
Nvidia 在 GTC Taipei 上推出了一系列面向机器人、自动驾驶和视频系统的模型。核心产品包括新的世界模型 Cosmos 3、大幅升级的驾驶模型 Alpamayo 2 Super,以及一个开源的人形机器人参考平台。这些发布标志着 Nvidia 在物理 AI 领域的重大投入,旨在为机器人提供更强大的感知、规划和交互能力。Cosmos 3 能够生成更逼真的虚拟环境,Alpamayo 2 Super 提升了自动驾驶的决策精度,而开源平台则降低了人形机器人研发的门槛。
英伟达发布首款基于 Jetson Thor 和 Isaac GR00T 平台的开放式人形机器人参考设计,整合宇树 H2 Plus 机器人底座与 Sharpa Wave 灵巧手,全身 75 个自由度,配备 Blackwell GPU 实现 2070 FP4 teraflops 算力。该设计统一了开发流程,帮助研究团队从启动到验证更快迭代。机器人身高 1.8 米,重 68 千克,续航约 3 小时,支持远程急停。英伟达还计划支持宇树 G1 机器人,并将于 2026 年底由宇树推出。
Decart 发布了一个非视频生成的持久化、多人协作世界模型,核心创新在于将「世界状态」与「视觉渲染」彻底解耦。这意味着世界不再是逐帧生成的画面,而是一个持续运行、可被用户实时修改、并能从任意视角稳定观测的结构化环境。该模型支持多人同时在线交互,是目前最接近「可交互持久世界」的尝试。这一突破为游戏、虚拟世界和协作式 AI 应用提供了全新范式。
Nvidia 推出 RTX Spark 芯片,结合 Blackwell GPU 与 Arm 架构 Grace CPU,支持最高 128 GB 共享内存,FP4 算力达 1000 TOPS。该芯片旨在让 Windows 设备本地运行 AI 智能体成为现实,对标 Apple Silicon 和高通。ASUS、Dell、HP、Lenovo、Microsoft Surface 和 MSI 等厂商计划从 2026 年秋季起推出首批搭载该芯片的设备。这标志着 Windows 平台在本地 AI 处理能力上的重大突破。
IBM研究指出,当前企业AI采用率低的关键原因在于过度关注大型语言模型(LLM)本身,而忽视了智能体逻辑(Agent Logic)的重要性。智能体逻辑包括任务分解、工具调用、状态管理和错误处理等结构化流程,这些才是实现可靠、可扩展企业AI应用的核心。文章提出,企业应构建基于智能体逻辑的架构,而非单纯追求更强大的LLM,以实现AI的规模化落地。
英伟达宣布台积电正采用其加速计算与AI技术,推动半导体设计与制造全流程发展。双方合作涵盖计算光刻、晶体管仿真、制程控制及晶圆厂运营优化等领域,利用英伟达GPU和CUDA库加速任务。例如,cuLitho将光刻成本效益提升20%-50%,cuEST加速化学仿真50倍。此外,台积电还使用Metropolis平台提升缺陷检测,并探索Omniverse构建数字孪生晶圆厂。此举旨在缩短生产周期、提升能效和良率,应对先进制程的复杂挑战。
Runway 宣布作为创始成员加入 Cosmos Coalition,这是一个由 NVIDIA 和多家顶级 AI 实验室发起的全球性倡议,旨在共同构建并开源面向物理 AI 的前沿世界模型。该联盟将通过一个通用的开放生态系统,加速世界模型的研究与开发,推动物理 AI 的进步。此举有望降低物理 AI 的门槛,促进跨机构协作,为机器人、自动驾驶等领域提供基础模型。
Linux Foundation 旗下的 DNS-AID 项目旨在为 AI agents 构建基于 DNS 的发现机制,类似于互联网的电话簿。通过类似 `_agent._protocol._agents.example.com` 的 DNS 记录,agents 可以找到彼此并获取 MCP、A2A、HTTPS 等连接信息,无需硬编码地址或中心化注册表。这解决了 agent 互发现的基础设施问题,复用现有 DNS 体系,支持 DNSSEC 验证,便于企业纳管。但后续的身份信任、权限控制、责任归属和结算问题仍需解决。
OpenAI 宣布成立 OpenAI Robotics 部门,并开始招聘全栈硬件、运营、系统和机器学习工程师。该部门由 Aditya Ramesh 领导的世界模拟研究项目在过去一年中演变而来,专注于编程和制造对社会有用的机器人。短期目标是支持技术工人建设未来基础设施,长期愿景是让每个人拥有能完成任何任务的个人机器人。OpenAI 强调机器人硬件与 ML 研究的协同设计,并邀请有卓越成就的工程师加入。
一篇新论文指出,AI Agent 系统的扩展不应仅依赖增加计算量,而应关注有效反馈的利用。作者提出“有效反馈计算”(EFC)指标,只计算那些能教会智能体有用信息并改变后续决策的反馈。实验表明,任务归一化的 EFC 比原始计算量更能预测任务失败,在预算相同的情况下,更好的反馈将成功率从 0.27 提升至 0.90。该研究强调 Agent 系统本质上是“反馈机器”,而非简单的模型封装。
这篇论文提出了一种部署感知的上下文策略选择方法,将检索、压缩和全上下文等策略统一建模为成本-性能优化问题。通过引入对数效用函数和复用参数 N,揭示了不同策略在不同部署条件下的最优切换点。在 5000 个 HotpotQA 实例上,该方法在相同性能下减少了约 25% 的有效 Token 使用,高性能场景下压缩策略比全上下文便宜 50% 以上。这项工作为 AI 代理的上下文管理提供了理论指导,避免了孤立基准测试的误导。
一项新研究挑战了自我进化智能体的普遍假设,即更强的模型能写出更好的提示和技能编辑。实验表明,模型生成进化更新的能力在不同能力级别上基本持平,Qwen3.5-9B与Claude Opus 4.6表现相当。而受益于这些更新的能力呈倒U型曲线,中等模型效果最佳,弱模型无法激活更新,强模型改进空间有限。因此,建议将廉价模型用于进化器角色,昂贵模型用于求解器角色,以最大化收益。该发现对构建长期任务智能体的开发者具有重要指导意义。
MIT、斯坦福、纽约大学和普林斯顿联合发表论文,发现人们在使用AI时会产生“效率增益错觉”——即使实际效率提升很小甚至为负,仍感觉AI节省了大量时间。在2691名参与者的三项预注册实验中,人们高估了AI对简单任务(如算术、拼写、回忆、短改写)的节省时间,平均预期节省55.7秒,实际仅7.5秒。研究指出,AI使用的隐性成本在于界面摩擦(写提示、等待、检查等),而非智能不足。更关键的是,AI使用会自我强化:仅使用两次后,参与者就更倾向于再次使用AI,即使自己完成更快。这种依赖并非戏剧性的,而是悄无声息地重新校准了人们对自身能力的判断。
Simon Willison 在推文中指出,当使用编程智能体(coding agents)工作时,对话记录(transcript)成为最重要的工件之一。他认为记录这些对话对于追踪决策过程,其重要性甚至超过维护良好的提交信息和 issue。这一观点强调了在 AI 辅助编程时代,对话记录作为知识管理工具的价值。对于使用 AI 编程助手的开发者来说,这提供了一个新的工作流优化方向。
开发者 Vikingmute 发布了一篇英文文章《How I Use AI for Code Reviews》,分享了一套名为 Review Forge 的 AI 代码审查流程。文章基于之前的中文笔记整理而成,包含详细的步骤工作流。作者指出,AI 生成代码速度极快,如果不严格审查,系统质量会迅速下降,变成黑箱。Review Forge 流程旨在为代码审查带来结构和纪律,让作者对每次变更更有信心。对于大量使用 AI 写代码但难以跟上审查节奏的开发者,这篇文章提供了实用的参考。
dotey 在 X 上分享了 Claude Code 中 /goal 命令的两种高效用法:一是将逆向代码的完整任务整理成 JSON 文件,让 AI 分批处理并逐条勾选 Checklist;二是与 AI 协作编写详细设计文档,划分多个 Phase 并设定验收条件,每个 Phase 执行后自动 commit。这些实践展示了 /goal 如何将复杂任务拆解为可追踪的步骤,提升 AI 编程的可靠性和效率。