精选理由
具身智能研究者终于有了一个统一框架——Pelican-Unified 1.0 用一个模型搞定理解、推理、想象和行动,不再需要拼凑三个独立系统。做机器人、仿真或多模态模型的团队值得关注,它证明了统一不意味着妥协。
Pelican-Unified 1.0 是首个按照统一原则训练的具身基础模型,将场景理解、指令推理、未来想象和动作执行整合到单一模型中。它使用一个视觉语言模型(VLM)作为统一的理解和推理模块,并通过统一未来生成器(UFG)同时生成未来视频和动作。实验表明,统一并未牺牲性能:在八个VLM基准上平均得分64.7,在WorldArena上排名第一(66.03),在RoboTwin上达到93.5(动作方法中第二好)。该工作展示了统一范式在保持专家级性能的同时,将多种能力融合到一个模型中的可行性。
AI 翻译 · 中文
Pelican-Unified 1.0 是首个按照统一原则训练的具身基础模型,将场景理解、指令推理、未来想象和动作执行整合到单一模型中。它使用一个视觉语言模型(VLM)作为统一的理解和推理模块,并通过统一未来生成器(UFG)同时生成未来视频和动作。实验表明,统一并未牺牲性能:在八个VLM基准上平均得分64.7,在WorldArena上排名第一(66.03),在RoboTwin上达到93.5(动作方法中第二好)。该工作展示了统一范式在保持专家级性能的同时,将多种能力融合到一个模型中的可行性。
We present Pelican-Unified 1.0, the first embodied foundation model trained according to the principle of unification. Pelican-Unified 1.0 uses a single VLM as a unified understanding module, mapping scenes, instructions…