精选理由
这篇论文教VLA模型在正式训练前先学动作规律,用的是流匹配,13个任务上效果比直接训练好,数据少时尤其明显。
本文提出在两阶段框架中预训练动作模块,在VLA训练前注入运动先验。阶段1使用基于流匹配的轻量级编解码器,仅从无条件动作轨迹学习跨实体时间运动结构,无需处理视觉或语言token。阶段2通过解码器重用和早期潜在蒸馏,将学习到的先验迁移至VLA训练,同时保留端到端优化。在13个仿真和真实世界的跨实体任务中,该方法比无先验的VLA训练收敛更快、成功率更高,尤其数据稀缺时表现更优。扩展阶段1的动作数据能提升下游VLA性能的泛化性。
AI 翻译 · 中文
本文提出在两阶段框架中预训练动作模块,在VLA训练前注入运动先验。阶段1使用基于流匹配的轻量级编解码器,仅从无条件动作轨迹学习跨实体时间运动结构,无需处理视觉或语言token。阶段2通过解码器重用和早期潜在蒸馏,将学习到的先验迁移至VLA训练,同时保留端到端优化。在13个仿真和真实世界的跨实体任务中,该方法比无先验的VLA训练收敛更快、成功率更高,尤其数据稀缺时表现更优。扩展阶段1的动作数据能提升下游VLA性能的泛化性。
Most Vision-Language-Action (VLA) models build on a Vision-Language Model (VLM) backbone by attaching an action module and optimizing the full policy jointly. This design inherits strong visual and linguistic priors from…