FG-ExPO：自适应KL与高斯课程采样提升GRPO数学推理

精选理由

做LLM数学推理RL训练的团队，GRPO的KL系数和采样策略可以照搬这个改进，AIME 2025上13个点的提升值得一试。

AI 摘要

论文发现GRPO算法存在两个效率问题：固定KL系数限制模型探索，均匀采样忽略中等难度题目的信息价值。提出FG-ExPO方法，包含两个轻量组件：基于准确率的自适应KL缩放（AKL）动态调整约束强度，以及高斯课程采样（GCS）聚焦模型学习前沿。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上测试，AIME 2025 pass@32从63.33%提升至76.67%，8B模型平均提升2.66%。该方法在固定推理预算下扩大了模型有效探索空间。

AI 翻译 · 中文

arXiv: DeepSeekReinforcement Learning with Verifiable Rewards (RLVR) has become the standard paradigm for LLM mathematical reasoning, with Group Relative Policy Optimization (GRPO) serving as the dominant algorithm. We identify two ove…

阅读原文