近期,英伟达(NVIDIA)在物理AI领域持续发力,其最新开源模型Cosmos 3成为焦点。Cosmos 3被描述为首个全开放、全模态的物理AI大模型,能够理解物理世界并执行推理与行动任务。与以往闭源或半开源不同,此次英伟达不仅开源了模型权重,还公开了训练配方,允许开发者和研究者自由使用与定制。
- 主要进展包括:
- 英伟达正式发布并开源Cosmos 3,这是一个全模态物理AI模型,能够处理语言、图像和视频等多模态数据,并在物理环境中进行推理与规划(IT之家)。
- Runway与英伟达等机构联合成立Cosmos Coalition,推动开源物理AI世界模型的发展,旨在通过开放协作加速这一领域创新(Runway ML)。
- 英伟达在Hugging Face上发布Cosmos 3的技术博客,详细介绍了模型架构、训练方法和能力评估,强调其在模拟和机器人等场景的应用潜力(Hugging Face Blog)。
- 同时,英伟达采用Linux基金会的OpenMDW框架,统一了开源许可,确保模型的开放性和可再发布性,降低了社区使用的法律风险(NVIDIA AI)。
当前焦点在于Cosmos 3的开放性如何改变物理AI研究格局。一方面,全开源降低了进入门槛,使中小团队甚至个人研究者也能在单GPU上运行2.6B参数的世界模型(Paul Couvert)。另一方面,社区关注其与现有闭源模型(如英伟达自身的商业版本)的差异。此外,Cosmos Coalition的成立标志着行业联盟的形成,可能推动物理AI在机器人和自动驾驶等领域的标准化。未来观察点包括:Cosmos 3在真实物理任务中的性能表现,以及开源社区对其的改进贡献速度。