精选理由
这篇论文用无标签数据先学移动再学做事,SIMPLER上提升10%,真实机器人也抗干扰,思路很实用。
VLA模型受限于专家演示数据稀缺,这些数据需要观测、指令和动作的三元组,成本高昂。研究提出分解假设,将物理能力(如何移动)与语义对齐(做什么)解耦。基于此设计了TAP框架,先通过自监督逆动力学从无标签交互数据学习运动先验,再用少量专家数据将先验与语言对齐。在SIMPLER基准上,TAP匹配使用超过100万专家轨迹的模型,实现了10%的绝对提升。真实WidowX机器人平台测试中,TAP在相机扰动下保持25%成功率,而互联网规模基线降至0%。
AI 翻译 · 中文
VLA模型受限于专家演示数据稀缺,这些数据需要观测、指令和动作的三元组,成本高昂。研究提出分解假设,将物理能力(如何移动)与语义对齐(做什么)解耦。基于此设计了TAP框架,先通过自监督逆动力学从无标签交互数据学习运动先验,再用少量专家数据将先验与语言对齐。在SIMPLER基准上,TAP匹配使用超过100万专家轨迹的模型,实现了10%的绝对提升。真实WidowX机器人平台测试中,TAP在相机扰动下保持25%成功率,而互联网规模基线降至0%。
Vision-Language-Action (VLA) models are fundamentally bottlenecked by the scarcity of expert demonstrations -- triplets of observations, instructions, and actions that are costly to collect at scale. We argue that this b…