LaWAM：潜在世界行动模型实现高效动力学感知机器人策略

精选理由

机器人策略新框架LaWAM，不用生成视频就能预测场景变化，又快又准，成功率98.6%还低延迟，推荐做机器人控制的看看。

AI 摘要

LaWAM通过潜在视觉子目标替代重建未来视频，在LIBERO基准上达到98.6%的成功率，在RoboTwin上达到91.22%，并在真实世界操作任务中取得竞争性表现。该模型每次动作块预测仅需187毫秒，延迟比像素空间世界行动模型低24倍。LaWAM的核心是潜在动作条件潜在世界模型（LaWM），利用预训练视觉基础模型的潜在空间预测未来观测特征。

AI 翻译 · 中文

arXiv cs.AIVision-Language-Action models (VLAs) leverage large-scale vision-language pretraining for semantic robot control, but often lack explicit foresight into how robot actions change the scene. World-Action Models (WAMs) addr…

阅读原文