GRPO优势坍塌问题诊断与AVSPO缓解方案

精选理由

GRPO用户终于有了解决训练停滞的实用工具——AVSPO无需额外推理成本就能提升4-6个点准确率，做大模型RL训练的团队可以直接试。

AI 摘要

Group Relative Policy Optimization (GRPO) 在提升大语言模型推理能力方面表现出色，但存在优势坍塌问题：当组内奖励同质化（如全对或全错）时，优势趋近于零，导致梯度消失。研究者首次提出诊断指标 Advantage Collapse Rate (ACR)，量化训练批次中梯度无效的比例，并在0.5B至14B参数模型上验证了ACR对训练停滞和最终性能的强预测性。为缓解该问题，他们提出 Adaptive Virtual Sample Policy Optimization (AVSPO)，通过实时ACR监控注入虚拟奖励样本，无需额外模型推理即可从同质组中学习。AVSPO将优势坍塌减少58-63%，在所有模型规模上带来4-6个百分点的准确率提升，且保持了域外泛化能力。代码和数据集已开源。

AI 翻译 · 中文

arXiv cs.LGGroup Relative Policy Optimization (GRPO), a prominent algorithm within the Reinforcement Learning from Verifiable Rewards (RLVR) framework, has achieved strong results in improving the reasoning capabilities of large la…

阅读原文