10:59arXiv cs.AI@Shuyi Zhang, Yunfan Lou, Hongyang Cheng, Yichen Guo, Chuyao Fu, Yaoxu Lyu, Xiaojie Zhang, Haoran Li, Pengwei Wang, Zhongyuan Wang, Shanghang ZhangFORCE是一个三阶段框架,通过价值校准热身和自蒸馏来稳定VLA模型的强化学习微调。它解决了Q函数不稳定导致的初期遗忘和低质量探索数据导致的策略更新低效问题。在模拟和真实任务上,FORCE取得了79%的绝对成功率提升,比此前RL方法高出10%,同时训练速度加快32.5%。该框架无需人工干预即可实现稳健性能。AI模型FORCEVLA强化学习机器人推荐理由:新框架FORCE让机器人学动作更快更稳,成功率飙升79%,比现有RL方法还快32.5%,不用人插手。原文