Nvidia 发布 Cosmos 3：统一语言、图像、视频、音频和动作的物理 AI 世界模型

精选理由

Nvidia 让机器人学会动作语言

AI 摘要

Nvidia 推出 Cosmos 3，一个能够理解、模拟和行动于多种物理 AI 任务的统一模型。它将动作视为世界的一等语言，把语言、图像、视频、音频和动作整合到一个共享系统中。该模型通过动作标记设计，让机器人能连接所见与可能发生的事，并决定下一步行动。论文显示，Cosmos 3 可基于视频推断动作，或与未来场景一同生成动作，从而解决机器人抓取、滑动等物理交互问题。

AI 翻译 · 中文

rohanpaul_aiNvidia's Cosmos 3: 1 model that can understand, simulate, and act across many physical AI tasks. It treats action as a first-class language of the world. Most AI models look at reality from the outside: images become cap…

NVIDIA AI06-11 16:03原文
vLLM06-12 04:08原文
LMSYS Org (SGLang)06-12 14:18原文

查看原推