GRPO(Group Relative Policy Optimization)是一种强化学习后训练方法,旨在通过分组相对奖励来优化模型策略,尤其在数学推理和代码生成任务中表现突出。近期,NVIDIA 开源了 Polar 框架,专门用于 GRPO 训练,兼容 Codex、Claude Code 和 Qwen Code 等模型,在 Codex 评测中性能提升高达 594.74%(英伟达开源 Polar 框架,Codex 跑分暴涨 594.74%)。同时,多模态 RLVR 管线如 Open-MM-RL 开始整合 GRPO,用于视觉语言提示和奖励评分(Open-MM-RL 教程:构建多模态 RLVR 管线,含视觉语言提示与 GRPO 导出)。
然而,GRPO 也面临挑战:研究者发现了 GRPO 的“优势坍塌”问题,并提出 AVSPO 缓解方案(GRPO优势坍塌问题诊断与AVSPO缓解方案);另有工作如 VPO 通过向量策略优化提升训练多样性(VPO:向量策略优化训练多样性,提升测试时搜索效果),以及 FG-ExPO 采用自适应 KL 与高斯课程采样改进数学推理(FG-ExPO:自适应KL与高斯课程采样提升GRPO数学推理)。此外,GRPO 还被应用于视觉语言模型空间推理(SAGE[^1])和视觉语言动作模型加速训练(PCM[^2])中。
[^1]: SAGE:通过几何逻辑一致性提升VLM空间推理能力 (https://arxiv.org/abs/2605.18162v1)
[^2]: PCM:概率性分块掩码加速VLA强化学习2.38倍 (https://arxiv.org/abs/2605.16154v1)
当前焦点在于:一方面,GRPO 的实践框架(如 Polar)和多模态扩展正推动其落地;另一方面,其稳定性问题(优势坍塌)和与其他方法(DPO、SFT)的对比(LLM后训练技术对比:SFT、DPO、GRPO一图看懂)是研究热点。未来观察点包括:如何解决 GRPO 的坍塌问题,以及能否在更广泛任务中超越传统方法。