边界感知课程强化学习提升LLM推理能力超越基础模型

精选理由

这篇论文提出一种课程强化学习，能帮LLM突破自己的推理能力边界，在多个模型上效果显著，值得关注。

AI 摘要

传统RLVR方法仅重新分配采样概率，虽能提升pass@1但可能降低pass@k，无法扩展基础模型的推理能力边界。本文提出边界感知课程RL：先用pass@k采样定位当前推理边界，再对边界附近样本进行教师引导，最后用RL巩固新推理模式。在Qwen、Llama、DeepSeek等模型上，该方法在pass@256上平均比基础模型提升9.8个百分点，比Vanilla RLVR提升10.3个百分点。实验表明该策略可帮助LLM持续突破经验推理边界。

AI 翻译 · 中文

arXiv: DeepSeekReinforcement learning with verifiable rewards (RLVR) is widely viewed as a promising path toward continuously improving large language models. Recent works, however, suggest that mainstream RLVR often reallocates sampli…

阅读原文