NVIDIA 发布 Cosmos 3:双塔 MoT 基础模型统一物理推理与生成

NVIDIA Releases Cosmos 3: A Two-Tower Mixture-of-Transformers Foundation Model Unifying Physical Reasoning, World Generation, and Action Generation

精选理由

NVIDIA 把物理推理和世界生成塞进一个开源模型,做机器人或自动驾驶的团队可以直接拿来用,省去从头训练物理世界模型的成本。

AI 摘要

NVIDIA 发布了 Cosmos 3,这是一款开源的“全模态世界模型”,采用双塔混合 Transformer 架构,将自回归 VLM 推理器与扩散生成器结合。该模型能够统一物理推理、世界生成和动作生成,为物理 AI 提供基础能力。Cosmos 3 旨在让机器人、自动驾驶等系统更好地理解物理世界并生成合理动作。其开源特性有望加速物理 AI 领域的研究与应用开发。

AI 翻译 · 中文

NVIDIA 发布了 Cosmos 3,这是一款开源的“全模态世界模型”,采用双塔混合 Transformer 架构,将自回归 VLM 推理器与扩散生成器结合。该模型能够统一物理推理、世界生成和动作生成,为物理 AI 提供基础能力。Cosmos 3 旨在让机器人、自动驾驶等系统更好地理解物理世界并生成合理动作。其开源特性有望加速物理 AI 领域的研究与应用开发。

marktechpostNVIDIA released Cosmos 3, open omnimodal world models pairing an autoregressive VLM reasoner with a diffusion generator for physical AI. The post NVIDIA Releases Cosmos 3: A Two-Tower Mixture-of-Transformers Foundation M