跨实体机器人操作的动作先验学习

精选理由

这篇论文教VLA模型在正式训练前先学动作规律，用的是流匹配，13个任务上效果比直接训练好，数据少时尤其明显。

AI 摘要

本文提出在两阶段框架中预训练动作模块，在VLA训练前注入运动先验。阶段1使用基于流匹配的轻量级编解码器，仅从无条件动作轨迹学习跨实体时间运动结构，无需处理视觉或语言token。阶段2通过解码器重用和早期潜在蒸馏，将学习到的先验迁移至VLA训练，同时保留端到端优化。在13个仿真和真实世界的跨实体任务中，该方法比无先验的VLA训练收敛更快、成功率更高，尤其数据稀缺时表现更优。扩展阶段1的动作数据能提升下游VLA性能的泛化性。

AI 翻译 · 中文

arXiv cs.AIMost Vision-Language-Action (VLA) models build on a Vision-Language Model (VLM) backbone by attaching an action module and optimizing the full policy jointly. This design inherits strong visual and linguistic priors from…

阅读原文