论文精选

边界感知课程强化学习提升LLM推理能力超越基础模型

Curriculum Reinforcement Learning Can Incentivize Reasoning Capacity in LLMs Beyond the Base Model

精选理由

这篇论文提出一种课程强化学习,能帮LLM突破自己的推理能力边界,在多个模型上效果显著,值得关注。

AI 摘要

传统RLVR方法仅重新分配采样概率,虽能提升pass@1但可能降低pass@k,无法扩展基础模型的推理能力边界。本文提出边界感知课程RL:先用pass@k采样定位当前推理边界,再对边界附近样本进行教师引导,最后用RL巩固新推理模式。在Qwen、Llama、DeepSeek等模型上,该方法在pass@256上平均比基础模型提升9.8个百分点,比Vanilla RLVR提升10.3个百分点。实验表明该策略可帮助LLM持续突破经验推理边界。

AI 翻译 · 中文

传统RLVR方法仅重新分配采样概率,虽能提升pass@1但可能降低pass@k,无法扩展基础模型的推理能力边界。本文提出边界感知课程RL:先用pass@k采样定位当前推理边界,再对边界附近样本进行教师引导,最后用RL巩固新推理模式。在Qwen、Llama、DeepSeek等模型上,该方法在pass@256上平均比基础模型提升9.8个百分点,比Vanilla RLVR提升10.3个百分点。实验表明该策略可帮助LLM持续突破经验推理边界。

arXiv: DeepSeekReinforcement learning with verifiable rewards (RLVR) is widely viewed as a promising path toward continuously improving large language models. Recent works, however, suggest that mainstream RLVR often reallocates sampli