精选理由
这篇论文提出一种课程强化学习,能帮LLM突破自己的推理能力边界,在多个模型上效果显著,值得关注。
传统RLVR方法仅重新分配采样概率,虽能提升pass@1但可能降低pass@k,无法扩展基础模型的推理能力边界。本文提出边界感知课程RL:先用pass@k采样定位当前推理边界,再对边界附近样本进行教师引导,最后用RL巩固新推理模式。在Qwen、Llama、DeepSeek等模型上,该方法在pass@256上平均比基础模型提升9.8个百分点,比Vanilla RLVR提升10.3个百分点。实验表明该策略可帮助LLM持续突破经验推理边界。
AI 翻译 · 中文
传统RLVR方法仅重新分配采样概率,虽能提升pass@1但可能降低pass@k,无法扩展基础模型的推理能力边界。本文提出边界感知课程RL:先用pass@k采样定位当前推理边界,再对边界附近样本进行教师引导,最后用RL巩固新推理模式。在Qwen、Llama、DeepSeek等模型上,该方法在pass@256上平均比基础模型提升9.8个百分点,比Vanilla RLVR提升10.3个百分点。实验表明该策略可帮助LLM持续突破经验推理边界。
Reinforcement learning with verifiable rewards (RLVR) is widely viewed as a promising path toward continuously improving large language models. Recent works, however, suggest that mainstream RLVR often reallocates sampli…