EXPO：自适应KL调节与高斯课程采样的探索优先策略优化

精选理由

该工作针对GRPO在LLM数学推理中的实际瓶颈提出两项轻量改进，AKL与GCS模块即插即用，实验验证显著提升pass@32指标，对强化学习训练策略的优化具有直接指导意义。

AI 摘要

该论文指出GRPO算法在LLM数学推理中的两个效率不足：固定的KL惩罚系数过度限制策略探索，以及均匀采样忽略了中等难度题目的有效梯度信号。作者提出EXPO算法，包含两个轻量模块：AKL根据批次平均准确率动态调整KL正则化强度，GCS按照高斯分布为中等难度题目赋予更高采样权重。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上的六项数学推理基准测试中，EXPO在AIME 2025 pass@32上提升了13.34个百分点，从63.33%升至76.67%，8B模型平均pass@32提升2.66。性能增益表明EXPO有效扩大了模型在固定推理成本下的探索边界。

AI 翻译 · 中文

阅读原文