学习移动再学习做事:面向VLA的任务无关预训练

Learning to Move Before Learning to Do: Task-Agnostic pretraining for VLAs

精选理由

这篇论文用无标签数据先学移动再学做事,SIMPLER上提升10%,真实机器人也抗干扰,思路很实用。

AI 摘要

VLA模型受限于专家演示数据稀缺,这些数据需要观测、指令和动作的三元组,成本高昂。研究提出分解假设,将物理能力(如何移动)与语义对齐(做什么)解耦。基于此设计了TAP框架,先通过自监督逆动力学从无标签交互数据学习运动先验,再用少量专家数据将先验与语言对齐。在SIMPLER基准上,TAP匹配使用超过100万专家轨迹的模型,实现了10%的绝对提升。真实WidowX机器人平台测试中,TAP在相机扰动下保持25%成功率,而互联网规模基线降至0%。

AI 翻译 · 中文

VLA模型受限于专家演示数据稀缺,这些数据需要观测、指令和动作的三元组,成本高昂。研究提出分解假设,将物理能力(如何移动)与语义对齐(做什么)解耦。基于此设计了TAP框架,先通过自监督逆动力学从无标签交互数据学习运动先验,再用少量专家数据将先验与语言对齐。在SIMPLER基准上,TAP匹配使用超过100万专家轨迹的模型,实现了10%的绝对提升。真实WidowX机器人平台测试中,TAP在相机扰动下保持25%成功率,而互联网规模基线降至0%。

arXiv cs.AIVision-Language-Action (VLA) models are fundamentally bottlenecked by the scarcity of expert demonstrations -- triplets of observations, instructions, and actions that are costly to collect at scale. We argue that this b