精选理由
这篇论文研究了怎么让机器人在学新任务时不忘旧技能,用不确定性主动挑数据微调VLA模型,比被动收集更高效,还试了两种防遗忘方法,挺实在的。
论文提出RECALL方法,用于视觉-语言-动作(VLA)模型的主动持续学习。与被动模仿学习相比,不确定性引导的数据收集使微调效率提升30%以上。但仅训练恢复数据会导致灾难性遗忘,在OpenVLA模型上丢失20%的旧任务性能。评估了重放混合和弹性权重巩固(EWC)两种持续学习技术,发现可塑性与记忆保留之间存在权衡。实验在3个机器人操作任务上进行,表明不确定性引导的恢复演示能提升适应效率,但如何平衡新旧知识仍是开放挑战。
AI 翻译 · 中文
论文提出RECALL方法,用于视觉-语言-动作(VLA)模型的主动持续学习。与被动模仿学习相比,不确定性引导的数据收集使微调效率提升30%以上。但仅训练恢复数据会导致灾难性遗忘,在OpenVLA模型上丢失20%的旧任务性能。评估了重放混合和弹性权重巩固(EWC)两种持续学习技术,发现可塑性与记忆保留之间存在权衡。实验在3个机器人操作任务上进行,表明不确定性引导的恢复演示能提升适应效率,但如何平衡新旧知识仍是开放挑战。
Vision-Language-Action (VLA) models are commonly fine-tuned through passive imitation learning, where additional demonstrations are collected for tasks where the policy performs poorly. This approach incurs several downs…