精选理由
做VLA机器人强化学习的团队终于有了省算力的方案——PCM直接替换GRPO就能省60%内存、快2倍多,效果还不打折,建议做后训练优化的点开看看。
该论文发现GRPO算法在VLA策略强化学习中,梯度计算占78%时间,而大部分计算浪费在策略已掌握的阶段。为此提出概率性分块掩码(PCM),通过成功-失败动作方差识别关键阶段,仅对少量分块进行梯度更新。PCM无需额外奖励模型,在LIBERO基准上保持相同成功率的同时,实现2.38倍加速、4.8倍梯度更新加速和60%峰值内存降低。
AI 翻译 · 中文
该论文发现GRPO算法在VLA策略强化学习中,梯度计算占78%时间,而大部分计算浪费在策略已掌握的阶段。为此提出概率性分块掩码(PCM),通过成功-失败动作方差识别关键阶段,仅对少量分块进行梯度更新。PCM无需额外奖励模型,在LIBERO基准上保持相同成功率的同时,实现2.38倍加速、4.8倍梯度更新加速和60%峰值内存降低。
Reinforcement learning (RL) allows vision-language-action (VLA) policies to generalize beyond their training distribution by optimizing directly for task success, but post-training is computationally expensive. A natural…