论文70°

EXPO:自适应KL调节与高斯课程采样的探索优先策略优化

精选理由

该工作针对GRPO在LLM数学推理中的实际瓶颈提出两项轻量改进,AKL与GCS模块即插即用,实验验证显著提升pass@32指标,对强化学习训练策略的优化具有直接指导意义。

AI 摘要

该论文指出GRPO算法在LLM数学推理中的两个效率不足:固定的KL惩罚系数过度限制策略探索,以及均匀采样忽略了中等难度题目的有效梯度信号。作者提出EXPO算法,包含两个轻量模块:AKL根据批次平均准确率动态调整KL正则化强度,GCS按照高斯分布为中等难度题目赋予更高采样权重。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上的六项数学推理基准测试中,EXPO在AIME 2025 pass@32上提升了13.34个百分点,从63.33%升至76.67%,8B模型平均pass@32提升2.66。性能增益表明EXPO有效扩大了模型在固定推理成本下的探索边界。

AI 翻译 · 中文

该论文指出GRPO算法在LLM数学推理中的两个效率不足:固定的KL惩罚系数过度限制策略探索,以及均匀采样忽略了中等难度题目的有效梯度信号。作者提出EXPO算法,包含两个轻量模块:AKL根据批次平均准确率动态调整KL正则化强度,GCS按照高斯分布为中等难度题目赋予更高采样权重。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上的六项数学推理基准测试中,EXPO在AIME 2025 pass@32上提升了13.34个百分点,从63.33%升至76.67%,8B模型平均pass@32提升2.66。性能增益表明EXPO有效扩大了模型在固定推理成本下的探索边界。