12:01arXiv: DeepSeek@Pengxiang Cai, Tianchen Fang, Xiaohan Li, Qingyuan Zeng, Guocong Li, Jintai Chen精选传统RLVR方法仅重新分配采样概率,虽能提升pass@1但可能降低pass@k,无法扩展基础模型的推理能力边界。本文提出边界感知课程RL:先用pass@k采样定位当前推理边界,再对边界附近样本进行教师引导,最后用RL巩固新推理模式。在Qwen、Llama、DeepSeek等模型上,该方法在pass@256上平均比基础模型提升9.8个百分点,比Vanilla RLVR提升10.3个百分点。实验表明该策略可帮助LLM持续突破经验推理边界。论文课程强化学习LLM推理RLVRpass@k评估基础模型推荐理由:这篇论文提出一种课程强化学习,能帮LLM突破自己的推理能力边界,在多个模型上效果显著,值得关注。原文
09:22arXiv: DeepSeek@Siddharth Aphale, Kelly Liu一项研究分析了SFT(监督微调)的过度训练对RLVR(基于强化学习的验证)训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型,发现SFT深度增加时,预RL的pass@1上升,但GRPO的pass@10从0.806降至0.481(3种子均值,n=20)。预RL熵与GRPO结果正相关(ρ=+0.69)。研究者提出一个两阶段诊断方法,结合预RL熵筛选和早期GRPO熵监控,可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。论文Qwen2.5-Coder-3BDeepSeek-Coder-6.7BSFTRLVR强化学习推荐理由:这篇论文发现了SFT过训练会搞崩GRPO训练的秘密,还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。原文
10:26arXiv cs.AI@Shumeng Yang, Yisu Liu, Jiayi Zheng, Zhaohui Yang, Linjing Li精选论文提出PAEC(位置感知熵校准)方法,解决强化学习(RLVR)中策略熵过早崩溃的问题。传统全局熵正则化对所有位置均匀增加熵,在长推理轨迹中效率低下。PAEC通过局部top-p熵和top-two候选竞争构建软掩码,对决策敏感位置施加基于锚点的下界惩罚,防止这些位置的熵崩溃。在五个数学推理基准测试中,PAEC相比强RLVR基线提升了多数投票的宏平均性能,尤其在AIME类任务上增益明显。结果表明,推理RL中的熵管理应聚焦于决策敏感位置的选择性探索,而非均匀随机注入。论文强化学习推理模型熵校准数学推理RLVR推荐理由:做LLM推理强化学习的团队终于有了更精细的熵控制方案——PAEC在数学推理任务上直接提升多数投票性能,做RLVR的开发者值得关注这个位置感知的新思路。原文
16:35marktechpost@Sana Hassan本文是一篇技术教程,详细介绍了如何使用 TuringEnterprises/Open-MM-RL 数据集构建完整的多模态强化学习与可验证奖励(RLVR)管线。教程涵盖数据集加载、模式检查、领域分析、问题长度与答案类型统计、图像分布可视化等预处理步骤。还构建了轻量级奖励函数,支持精确匹配与语义评分,并演示了 GRPO 导出流程。该管线为多模态推理任务提供了可复现的实践框架,适合研究者和开发者快速上手。论文多模态强化学习RLVRGRPOOpen-MM-RL推荐理由:多模态 RLVR 是当前强化学习与视觉语言结合的热点方向,这篇教程从数据集到奖励函数再到导出一步到位,做多模态推理或 RL 研究的团队可以直接照着搭,省去自己踩坑的时间。原文
12:11arXiv cs.LG@Kaiyi Zhang, Wei Wu, Yankai Lin精选DelTA提出了一种新方法,解决强化学习从可验证奖励(RLVR)中训练大语言模型时,token级信用分配不准确的问题。研究发现,标准RLVR更新中,高频格式token会主导梯度方向,掩盖真正区分高/低奖励的关键token。DelTA通过估计token系数,放大判别性方向、抑制共享模式,使更新更聚焦于推理关键步骤。在7个数学基准上,DelTA在Qwen3-8B和14B上分别平均提升3.26和2.62分,代码生成和跨领域任务也验证了其泛化能力。论文强化学习Token信用分配推理模型RLVR数学推理推荐理由:做RLHF或推理模型训练的团队,终于有了一个能精准分配token级信用的方法——DelTA解决了高频格式token淹没关键信号的问题,数学和代码任务上效果显著,值得在自家模型上试试。原文
10:22arXiv cs.LG@Xixiang He, Qiyao Sun, Ao Cheng, Xingming Li, Xuanyu Ji, Hailun Lu, Runke Huang, Qingyong Hu精选72°Group Relative Policy Optimization (GRPO) 在提升大语言模型推理能力方面表现出色,但存在优势坍塌问题:当组内奖励同质化(如全对或全错)时,优势趋近于零,导致梯度消失。研究者首次提出诊断指标 Advantage Collapse Rate (ACR),量化训练批次中梯度无效的比例,并在0.5B至14B参数模型上验证了ACR对训练停滞和最终性能的强预测性。为缓解该问题,他们提出 Adaptive Virtual Sample Policy Optimization (AVSPO),通过实时ACR监控注入虚拟奖励样本,无需额外模型推理即可从同质组中学习。AVSPO将优势坍塌减少58-63%,在所有模型规模上带来4-6个百分点的准确率提升,且保持了域外泛化能力。代码和数据集已开源。论文GRPO优势坍塌RLVR推理模型开源/仓库推荐理由:GRPO用户终于有了解决训练停滞的实用工具——AVSPO无需额外推理成本就能提升4-6个点准确率,做大模型RL训练的团队可以直接试。原文
15:34arXiv cs.AI@Utkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He精选强化学习中的可验证奖励(RLVR)在自动检查正确性时很有效,但许多模型行为需要同时满足多个定性标准。基于评分标准的奖励(rubric-based rewards)通过聚合多个标准来解决这一问题,但静态聚合会混淆人类赋予的重要性和当前优化信号的有效性。研究人员提出POW3R框架,它能在训练过程中动态调整各标准的奖励权重,优先关注当前能区分模型输出的标准。实验表明,POW3R在30个基线策略/指标比较中赢了24个,平均奖励和严格完成率均优于传统方法,且训练速度提升2.5-4倍。论文强化学习奖励设计RLVR评分标准POW3R推荐理由:做RLHF或RLVR的团队终于有了更聪明的奖励设计——POW3R解决了静态评分标准浪费训练信号的问题,做多模态或文本模型对齐的开发者可以直接参考实验设置。原文
10:44arXiv: DeepSeek@Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li精选GoLongRL 是一个完全开源的长上下文强化学习训练方案,包含 23K 样本的数据集、完整构建流程和训练代码。该方案基于长上下文能力分类法,覆盖 9 种任务类型,每个任务配有自然评估指标,数据来源包括书籍、学术论文和多轮对话等真实文档。在相同 GRPO 设置下,GoLongRL 数据集优于闭源的 QwenLong-L1.5 数据集,且 Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B。此外,论文提出 TMN-Reweight 方法,通过任务级均值归一化和难度自适应加权,解决异构奖励优化问题,进一步提升平均性能并保持通用能力。论文长上下文强化学习开源/仓库RLVR多任务对齐推荐理由:长上下文 RL 训练的数据构建和奖励设计一直是个难题,GoLongRL 提供了开源数据集和优化方法,做长上下文模型训练的团队可以直接复用,省去大量数据构造工作。原文