12:01arXiv: DeepSeek@Pengxiang Cai, Tianchen Fang, Xiaohan Li, Qingyuan Zeng, Guocong Li, Jintai Chen精选传统RLVR方法仅重新分配采样概率,虽能提升pass@1但可能降低pass@k,无法扩展基础模型的推理能力边界。本文提出边界感知课程RL:先用pass@k采样定位当前推理边界,再对边界附近样本进行教师引导,最后用RL巩固新推理模式。在Qwen、Llama、DeepSeek等模型上,该方法在pass@256上平均比基础模型提升9.8个百分点,比Vanilla RLVR提升10.3个百分点。实验表明该策略可帮助LLM持续突破经验推理边界。论文课程强化学习LLM推理RLVRpass@k评估基础模型推荐理由:这篇论文提出一种课程强化学习,能帮LLM突破自己的推理能力边界,在多个模型上效果显著,值得关注。原文