12:27arXiv cs.LG@Tongyan Fang, Siyuan Huang, Naiyu Fang, Ganlong Zhao, Zhongjin Luo, Jianbo Liu, Xiaogang Wang, Ying Dong, Hongsheng Li针对VLA策略在线RL微调中每个回合仅产生二元结果(成功/失败)的问题,现有方法将稀疏结果简化为单一标量优势,混淆了可行性与效率两类目标。本文提出分层优势加权行为克隆(HABC),训练两个独立critic头分别优化这两类目标,并通过状态自适应门(gt)合并其输出。在三个接触丰富的双手机器人任务上,HABC将监督微调(SFT)基线36%、44%、12%的成功率分别提升至92%、88%、38%。论文HABCVLA机器人学习在线强化学习推荐理由:HABC方法解决了VLA在线RL微调中稀疏结果的问题,在双手机器人任务上成功率从12-44%提升到38-92%。原文