Pelican-Unified 1.0：首个统一具身智能模型，理解、推理、想象与行动一体化

精选理由

具身智能研究者终于有了一个统一框架——Pelican-Unified 1.0 用一个模型搞定理解、推理、想象和行动，不再需要拼凑三个独立系统。做机器人、仿真或多模态模型的团队值得关注，它证明了统一不意味着妥协。

AI 摘要

Pelican-Unified 1.0 是首个按照统一原则训练的具身基础模型，将场景理解、指令推理、未来想象和动作执行整合到单一模型中。它使用一个视觉语言模型（VLM）作为统一的理解和推理模块，并通过统一未来生成器（UFG）同时生成未来视频和动作。实验表明，统一并未牺牲性能：在八个VLM基准上平均得分64.7，在WorldArena上排名第一（66.03），在RoboTwin上达到93.5（动作方法中第二好）。该工作展示了统一范式在保持专家级性能的同时，将多种能力融合到一个模型中的可行性。

AI 翻译 · 中文

arXiv cs.AIWe present Pelican-Unified 1.0, the first embodied foundation model trained according to the principle of unification. Pelican-Unified 1.0 uses a single VLM as a unified understanding module, mapping scenes, instructions…

阅读原文