PCM：概率性分块掩码加速VLA强化学习2.38倍

精选理由

做VLA机器人强化学习的团队终于有了省算力的方案——PCM直接替换GRPO就能省60%内存、快2倍多，效果还不打折，建议做后训练优化的点开看看。

AI 摘要

该论文发现GRPO算法在VLA策略强化学习中，梯度计算占78%时间，而大部分计算浪费在策略已掌握的阶段。为此提出概率性分块掩码（PCM），通过成功-失败动作方差识别关键阶段，仅对少量分块进行梯度更新。PCM无需额外奖励模型，在LIBERO基准上保持相同成功率的同时，实现2.38倍加速、4.8倍梯度更新加速和60%峰值内存降低。

AI 翻译 · 中文

arXiv cs.LGReinforcement learning (RL) allows vision-language-action (VLA) policies to generalize beyond their training distribution by optimizing directly for task success, but post-training is computationally expensive. A natural…

阅读原文