InDex：通过意图条件微调弥合VLA模型到灵巧手的形态鸿沟

精选理由

机器人操作研究者终于有了解决灵巧手形态鸿沟的实用方案——InDex用意图条件微调避免了灾难性遗忘，做灵巧操作或VLA模型迁移的团队可以直接参考其两阶段架构。

AI 摘要

VLA模型在机器人操作中展现出强大的零样本泛化能力，但现有预训练管线几乎都局限于低自由度平行夹爪。将语义先验迁移到高自由度灵巧手面临严重的形态鸿沟，直接端到端微调会导致空间推理灾难性遗忘和动作流形坍塌。本文提出InDex框架，通过跨形态语义继承，将预训练的1-DoF平行抓取输出重新用作连续的宏观虚拟抓取意图代理，并采用两阶段解耦学习架构：第一阶段参数高效对齐VLA骨干以预测连续手臂轨迹和标量抓取意图；第二阶段冻结空间骨干，利用意图条件去噪扩散头解码多指末端执行器的细粒度关节动作。在多种多阶段、高接触灵巧操作任务上的仿真基准测试表明，InDex能以极少的演示数据掌握复杂技能，显著优于整体微调基线，同时保留原始VLA先验的鲁棒空间泛化能力。

AI 翻译 · 中文

arXiv cs.AIVision-Language-Action (VLA) models have demonstrated remarkable zero-shot generalization in robotic manipulation, yet the vast majority of pre-trained pipelines remain strictly confined to low-DoF parallel grippers. Ada…

阅读原文