论文精选73°

Nvidia 发布 Cosmos 3:统一语言、图像、视频、音频和动作的物理 AI 世界模型

Nvidia's Cosmos 3: 1 model that can understand, si…

精选理由

Nvidia 让机器人学会动作语言

AI 摘要

Nvidia 推出 Cosmos 3,一个能够理解、模拟和行动于多种物理 AI 任务的统一模型。它将动作视为世界的一等语言,把语言、图像、视频、音频和动作整合到一个共享系统中。该模型通过动作标记设计,让机器人能连接所见与可能发生的事,并决定下一步行动。论文显示,Cosmos 3 可基于视频推断动作,或与未来场景一同生成动作,从而解决机器人抓取、滑动等物理交互问题。

AI 翻译 · 中文

Nvidia 推出 Cosmos 3,一个能够理解、模拟和行动于多种物理 AI 任务的统一模型。它将动作视为世界的一等语言,把语言、图像、视频、音频和动作整合到一个共享系统中。该模型通过动作标记设计,让机器人能连接所见与可能发生的事,并决定下一步行动。论文显示,Cosmos 3 可基于视频推断动作,或与未来场景一同生成动作,从而解决机器人抓取、滑动等物理交互问题。

rohanpaul_aiNvidia's Cosmos 3: 1 model that can understand, simulate, and act across many physical AI tasks. It treats action as a first-class language of the world. Most AI models look at reality from the outside: images become cap