论文精选

PCM:概率性分块掩码加速VLA强化学习2.38倍

Learn Where Outcomes Diverge: Efficient VLA RL via Probabilistic Chunk Masking

精选理由

做VLA机器人强化学习的团队终于有了省算力的方案——PCM直接替换GRPO就能省60%内存、快2倍多,效果还不打折,建议做后训练优化的点开看看。

AI 摘要

该论文发现GRPO算法在VLA策略强化学习中,梯度计算占78%时间,而大部分计算浪费在策略已掌握的阶段。为此提出概率性分块掩码(PCM),通过成功-失败动作方差识别关键阶段,仅对少量分块进行梯度更新。PCM无需额外奖励模型,在LIBERO基准上保持相同成功率的同时,实现2.38倍加速、4.8倍梯度更新加速和60%峰值内存降低。

AI 翻译 · 中文

该论文发现GRPO算法在VLA策略强化学习中,梯度计算占78%时间,而大部分计算浪费在策略已掌握的阶段。为此提出概率性分块掩码(PCM),通过成功-失败动作方差识别关键阶段,仅对少量分块进行梯度更新。PCM无需额外奖励模型,在LIBERO基准上保持相同成功率的同时,实现2.38倍加速、4.8倍梯度更新加速和60%峰值内存降低。

arXiv cs.LGReinforcement learning (RL) allows vision-language-action (VLA) policies to generalize beyond their training distribution by optimizing directly for task success, but post-training is computationally expensive. A natural