精选理由
新框架FORCE让机器人学动作更快更稳,成功率飙升79%,比现有RL方法还快32.5%,不用人插手。
FORCE是一个三阶段框架,通过价值校准热身和自蒸馏来稳定VLA模型的强化学习微调。它解决了Q函数不稳定导致的初期遗忘和低质量探索数据导致的策略更新低效问题。在模拟和真实任务上,FORCE取得了79%的绝对成功率提升,比此前RL方法高出10%,同时训练速度加快32.5%。该框架无需人工干预即可实现稳健性能。
AI 翻译 · 中文
FORCE是一个三阶段框架,通过价值校准热身和自蒸馏来稳定VLA模型的强化学习微调。它解决了Q函数不稳定导致的初期遗忘和低质量探索数据导致的策略更新低效问题。在模拟和真实任务上,FORCE取得了79%的绝对成功率提升,比此前RL方法高出10%,同时训练速度加快32.5%。该框架无需人工干预即可实现稳健性能。
Vision-Language-Action (VLA) models are often constrained by the imitation ceiling imposed by sub-optimal data. While Reinforcement Learning (RL) fine-tuning can surpass this limit, it is notoriously sample inefficient. …