GRPO · AI 话题观测

§ 01综述

GRPO（Group Relative Policy Optimization）是一种强化学习算法，通过分组相对优势估计来优化语言模型策略，特别适用于奖励信号可验证的推理任务。它由DeepSeek提出，在数学推理、代码生成等场景中展现出高效性，近期围绕其稳定性、可扩展性及多模型协同出现了多项改进工作。

GRPO 近期进展

协同推理框架 Tandem RL：提出一种多模型协同推理方法，在RLVR（基于可验证奖励的强化学习）中让不同规模的模型协同优化，可能扩展GRPO的应用模式。Tandem Reinforcement Learning 在 RLVR 中实现模型协同推理

BashCoder-R1：基于GRPO策略的Bash代码生成框架，通过可验证奖励提升代码的鲁棒性与可解释性，体现了GRPO在结构化任务中的效果。BashCoder-R1：面向鲁棒可解释Bash代码生成的框架

Fireworks 推出 Nemotron 3 RL 微调服务：该服务支持按GPU小时计费的RL微调，可能包括GRPO算法，标志着GRPO从研究走向商业化应用。Fireworks 推出 Nemotron 3 RL 微调服务，按 GPU 小时计费

STARE：惊讶度引导的GRPO稳定性改进：提出基于令牌级优势重加权的STARE方法，通过惊讶度引导策略熵正则化，缓解GRPO在训练中的不稳定问题。STARE: 基于惊讶度引导的令牌级优势重加权策略熵稳定性方法

当前焦点与观察点

当前GRPO研究主要围绕三个方面：一是奖励信号的设计与可移植性，例如通过可移植查询生成实现工业语义搜索；二是算法稳定性，如STARE通过优势重加权缓解策略熵崩塌；三是多模型协同扩展，Tandem RL展现了在异构模型间共享奖励信号的潜力。此外，GRPO在自动化技能生成（如SKILL.md）和视觉推理（如SPOT-E）中也有应用。争议点在于奖励过拟合与泛化能力之间的平衡，以及如何设计更鲁棒的组内优势估计。整体而言，GRPO正从单一优化方法演变为可组合的训练范式，未来可能进一步融合推理时搜索与并行聚合技术。

§ 02相关报道10 条在档

§ 03邻近话题