NVIDIA 发布 SANA-WM:单图+文本+相机轨迹生成可控世界

One image + text + camera trajectory = controllable worlds. All on a single GPU. Our research team...

精选理由

NVIDIA 把世界模型的门槛拉到单卡可跑,做视频生成或 3D 仿真的开发者可以直接拿来用,60 秒可控视频不再是云端专属。

AI 摘要

NVIDIA 研究团队开源了 SANA-WM,一个 2.6B 参数的世界模型,能在单张 GPU 上根据一张图片、文本描述和相机轨迹生成 60 秒可控视频。该模型原生支持精确的相机控制,为视频生成和世界模拟提供了新的可能性。SANA-WM 的开源发布降低了高质量可控视频生成的门槛,对内容创作、游戏和仿真领域有重要意义。

AI 翻译 · 中文

NVIDIA 研究团队开源了 SANA-WM,一个 2.6B 参数的世界模型,能在单张 GPU 上根据一张图片、文本描述和相机轨迹生成 60 秒可控视频。该模型原生支持精确的相机控制,为视频生成和世界模拟提供了新的可能性。SANA-WM 的开源发布降低了高质量可控视频生成的门槛,对内容创作、游戏和仿真领域有重要意义。

NVIDIA AIOne image + text + camera trajectory = controllable worlds. All on a single GPU. Our research team just released SANA-WM, a 2.6B open source world model natively trained for 60-second video generation with precise camera