论文精选

InDex:通过意图条件微调弥合VLA模型到灵巧手的形态鸿沟

Bridging the Morphology Gap: Adapting VLA Models to Dexterous Manipulation via Intent-Conditioned Fine-Tuning

精选理由

机器人操作研究者终于有了解决灵巧手形态鸿沟的实用方案——InDex用意图条件微调避免了灾难性遗忘,做灵巧操作或VLA模型迁移的团队可以直接参考其两阶段架构。

AI 摘要

VLA模型在机器人操作中展现出强大的零样本泛化能力,但现有预训练管线几乎都局限于低自由度平行夹爪。将语义先验迁移到高自由度灵巧手面临严重的形态鸿沟,直接端到端微调会导致空间推理灾难性遗忘和动作流形坍塌。本文提出InDex框架,通过跨形态语义继承,将预训练的1-DoF平行抓取输出重新用作连续的宏观虚拟抓取意图代理,并采用两阶段解耦学习架构:第一阶段参数高效对齐VLA骨干以预测连续手臂轨迹和标量抓取意图;第二阶段冻结空间骨干,利用意图条件去噪扩散头解码多指末端执行器的细粒度关节动作。在多种多阶段、高接触灵巧操作任务上的仿真基准测试表明,InDex能以极少的演示数据掌握复杂技能,显著优于整体微调基线,同时保留原始VLA先验的鲁棒空间泛化能力。

AI 翻译 · 中文

VLA模型在机器人操作中展现出强大的零样本泛化能力,但现有预训练管线几乎都局限于低自由度平行夹爪。将语义先验迁移到高自由度灵巧手面临严重的形态鸿沟,直接端到端微调会导致空间推理灾难性遗忘和动作流形坍塌。本文提出InDex框架,通过跨形态语义继承,将预训练的1-DoF平行抓取输出重新用作连续的宏观虚拟抓取意图代理,并采用两阶段解耦学习架构:第一阶段参数高效对齐VLA骨干以预测连续手臂轨迹和标量抓取意图;第二阶段冻结空间骨干,利用意图条件去噪扩散头解码多指末端执行器的细粒度关节动作。在多种多阶段、高接触灵巧操作任务上的仿真基准测试表明,InDex能以极少的演示数据掌握复杂技能,显著优于整体微调基线,同时保留原始VLA先验的鲁棒空间泛化能力。

arXiv cs.AIVision-Language-Action (VLA) models have demonstrated remarkable zero-shot generalization in robotic manipulation, yet the vast majority of pre-trained pipelines remain strictly confined to low-DoF parallel grippers. Ada