论文精选

FG-ExPO:自适应KL与高斯课程采样提升GRPO数学推理

fg-expo: Frontier-guided exploration-prioritized policy optimization via adaptive kl and gaussian curriculum

精选理由

做LLM数学推理RL训练的团队,GRPO的KL系数和采样策略可以照搬这个改进,AIME 2025上13个点的提升值得一试。

AI 摘要

论文发现GRPO算法存在两个效率问题:固定KL系数限制模型探索,均匀采样忽略中等难度题目的信息价值。提出FG-ExPO方法,包含两个轻量组件:基于准确率的自适应KL缩放(AKL)动态调整约束强度,以及高斯课程采样(GCS)聚焦模型学习前沿。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上测试,AIME 2025 pass@32从63.33%提升至76.67%,8B模型平均提升2.66%。该方法在固定推理预算下扩大了模型有效探索空间。

AI 翻译 · 中文

论文发现GRPO算法存在两个效率问题:固定KL系数限制模型探索,均匀采样忽略中等难度题目的信息价值。提出FG-ExPO方法,包含两个轻量组件:基于准确率的自适应KL缩放(AKL)动态调整约束强度,以及高斯课程采样(GCS)聚焦模型学习前沿。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上测试,AIME 2025 pass@32从63.33%提升至76.67%,8B模型平均提升2.66%。该方法在固定推理预算下扩大了模型有效探索空间。

arXiv: DeepSeekReinforcement Learning with Verifiable Rewards (RLVR) has become the standard paradigm for LLM mathematical reasoning, with Group Relative Policy Optimization (GRPO) serving as the dominant algorithm. We identify two ove