精选理由
HABC方法解决了VLA在线RL微调中稀疏结果的问题,在双手机器人任务上成功率从12-44%提升到38-92%。
针对VLA策略在线RL微调中每个回合仅产生二元结果(成功/失败)的问题,现有方法将稀疏结果简化为单一标量优势,混淆了可行性与效率两类目标。本文提出分层优势加权行为克隆(HABC),训练两个独立critic头分别优化这两类目标,并通过状态自适应门(gt)合并其输出。在三个接触丰富的双手机器人任务上,HABC将监督微调(SFT)基线36%、44%、12%的成功率分别提升至92%、88%、38%。
AI 翻译 · 中文
针对VLA策略在线RL微调中每个回合仅产生二元结果(成功/失败)的问题,现有方法将稀疏结果简化为单一标量优势,混淆了可行性与效率两类目标。本文提出分层优势加权行为克隆(HABC),训练两个独立critic头分别优化这两类目标,并通过状态自适应门(gt)合并其输出。在三个接触丰富的双手机器人任务上,HABC将监督微调(SFT)基线36%、44%、12%的成功率分别提升至92%、88%、38%。
When pretrained VLA policies are fine-tuned through online RL, each rollout episode produces only a single binary outcome (success or failure), yet the actor update requires per-transition supervision. Existing approache…