精选理由
这篇论文发现了SFT过训练会搞崩GRPO训练的秘密,还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。
一项研究分析了SFT(监督微调)的过度训练对RLVR(基于强化学习的验证)训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型,发现SFT深度增加时,预RL的pass@1上升,但GRPO的pass@10从0.806降至0.481(3种子均值,n=20)。预RL熵与GRPO结果正相关(ρ=+0.69)。研究者提出一个两阶段诊断方法,结合预RL熵筛选和早期GRPO熵监控,可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。
AI 翻译 · 中文
一项研究分析了SFT(监督微调)的过度训练对RLVR(基于强化学习的验证)训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型,发现SFT深度增加时,预RL的pass@1上升,但GRPO的pass@10从0.806降至0.481(3种子均值,n=20)。预RL熵与GRPO结果正相关(ρ=+0.69)。研究者提出一个两阶段诊断方法,结合预RL熵筛选和早期GRPO熵监控,可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。
The standard heuristic of selecting the SFT checkpoint with the highest pass@1 for GRPO can fail when SFT compresses the rollout distribution. For binary rewards, the expected within group advantage variance is $p(1{-}p)…