HABC：分层优势加权在线RL微调VLA策略

精选理由

HABC方法解决了VLA在线RL微调中稀疏结果的问题，在双手机器人任务上成功率从12-44%提升到38-92%。

AI 摘要

针对VLA策略在线RL微调中每个回合仅产生二元结果（成功/失败）的问题，现有方法将稀疏结果简化为单一标量优势，混淆了可行性与效率两类目标。本文提出分层优势加权行为克隆（HABC），训练两个独立critic头分别优化这两类目标，并通过状态自适应门（gt）合并其输出。在三个接触丰富的双手机器人任务上，HABC将监督微调（SFT）基线36%、44%、12%的成功率分别提升至92%、88%、38%。

AI 翻译 · 中文

arXiv cs.LGWhen pretrained VLA policies are fine-tuned through online RL, each rollout episode produces only a single binary outcome (success or failure), yet the actor update requires per-transition supervision. Existing approache…

阅读原文