12:14arXiv: DeepSeek@Mingyue Wang, Xingyu Xie, Hang Yang, Li Gao, Lixin Su, Ge Chen, Dawei Yin, Daiting Shi精选百度搜索团队提出QDET(查询驱动事件时间线摘要)系统,用于在搜索中为热点新闻查询构建聚焦的事件时间线。该系统通过多任务监督微调(时序排序、因果判断、时间线补全)和基于强化学习的简洁摘要生成,使7B参数模型在时间线摘要F1得分(76.2%)上超越DeepSeek-R1-671B(76.1%),参数量仅为后者的1%。在线A/B测试显示,QDET使点击率提升5.5%、停留时间延长4.6%、探索深度增加4.4%。该工作证明领域专用优化能以极低成本达到大模型级别的生产质量。论文事件时间线摘要搜索多任务微调强化学习百度推荐理由:搜索和新闻聚合团队终于有了可落地的轻量级时间线方案——7B模型干翻671B,CTR和用户停留时间双双提升,做搜索排序或事件摘要的工程师可以直接参考其多任务微调策略。原文
10:51arXiv cs.LG@Shijin Gong, Erhan Xu, Kai Ye, Francesco Quinzan, Giulia Livieri, Chengchun Shi精选BASIS 是一种无需评论家的后训练算法,通过单次采样每个提示的轨迹,并利用整个批次中跨提示的信息共享来改进价值函数估计。实验表明,与单次采样的 REINFORCE++ 基线相比,BASIS 将价值函数估计的均方误差降低了 69%,且单次采样的 MSE 低于 8 次采样的组均值估计器。这种改进带来了更好的策略优化:BASIS 用更少的训练时间达到了接近多采样 GRPO 型基线的性能,并常优于单采样 REINFORCE 型基线。该工作解决了强化学习在计算效率与样本效率之间的权衡问题。论文强化学习推理模型LLM训练价值函数估计BASIS推荐理由:做LLM推理强化学习的团队终于有了一个兼顾计算和样本效率的方案——BASIS用单次采样就达到多采样的效果,训练成本大幅降低,建议做RLHF或推理优化的开发者点开看看。原文
10:30arXiv cs.AI@Yi Jing, Zao Dai, Jinwu Hu, Zijun Yao, Lei Hou, Juanzi Li, Xiaozhi Wang精选论文提出SAERL框架,利用稀疏自编码器(SAE)提取模型内部信号,用于强化学习(RL)后训练的数据工程。SAERL建模了数据的多样性、难度和质量三个内在属性,分别实现批次多样性控制、易到难课程排序和数据过滤。在Qwen2.5-Math-1.5B上,SAERL相比原始GRPO平均准确率提升3%,训练步数减少20%,且在不同模型规模和RL算法上表现一致。实验表明SAE可跨模型族和规模迁移,是一种轻量可复用的数据工程工具。论文稀疏自编码器数据工程强化学习后训练可解释性推荐理由:做LLM后训练数据工程的团队终于有了从模型内部获取信号的方法——SAERL用SAE直接指导数据排序和过滤,比依赖外部信号更高效,做RL训练优化的开发者值得一试。原文
12:38arXiv: DeepSeek@Andreas Opedal, Francesco Ignazio Re, Abulhair Saparov, Mrinmaya Sachan, Bernhard Schölkopf, Ryan Cotterell精选研究者将自然语言推理建模为搜索问题,利用 A* 搜索算法指导 LLM 生成正确且高效的推理步骤。通过监督微调(基于 A* 执行轨迹)和强化学习(结合 A* 过程奖励模型),Llama-3.2 1B-3B 模型从近乎零准确率提升至超越 DeepSeek-V3.2。研究发现,简单正确性奖励最大化准确率,而 A* 信号能平衡准确率与效率。在更大搜索空间下,基于不完美启发式的训练反而带来更优准确率。这项工作展示了经典搜索算法指导 LLM 推理的潜力。论文推理模型A* 搜索后训练强化学习Llama-3.2推荐理由:A* 搜索让小模型推理能力大幅跃升,做推理优化或小模型部署的团队值得关注,可以直接参考其训练方法。原文
12:36arXiv: DeepSeek@Rongsheng Zhang, Ruofan Hu, Weijie Chen, Jiji Tang, Junnan Ren, Wanying Wu, Xunuoyan Chen, Tangjie Lv, Tao Jin, Zhou Zhao精选现有角色扮演智能体在长期对话中因上下文窗口限制而依赖外部记忆,但传统记忆框架仅记录事实,缺乏角色个性解读,导致回复泛化、角色一致性差。为此,研究者提出 RoleMemo 数据集,包含四个推理任务,要求智能体通过角色视角解读事实片段。同时提出 DualMem 框架,将记忆解耦为事实认知和角色条件洞察两个流,通过监督微调和强化学习训练。4B 参数的 DualMem 模型在角色一致性上超越了基于 DeepSeek-V3.2 的零样本框架。相关资源已在 GitHub 开源。论文角色扮演智能体记忆框架推理任务强化学习开源/仓库推荐理由:角色扮演智能体长期对话中的记忆与个性保持是行业难题,DualMem 的分离式记忆设计为开发者提供了可落地的解决方案,做虚拟角色或对话系统的团队值得关注。原文
12:22arXiv cs.LG@Zhaoyu Zhu, Rui Gao, Shuang Li精选该论文首次为Wasserstein策略梯度(WPG)方法在熵正则化强化学习中的全局收敛性提供了严格理论证明。WPG利用动作分布的最优传输几何,通过软Q函数的动作梯度与Langevin扩散更新策略,但标准Langevin分析因RL目标通过Bellman递归依赖策略而失效。研究者通过Bellman残差的KL表示、Bellman收缩与Bellman预解恒等式,建立了分布Polyak-Łojasiewicz条件,并利用对数Sobolev不等式控制离散化误差,最终证明WPG以几何速率收敛至全局最优(存在离散化偏差)。该工作揭示了熵正则化RL虽非传统凸优化,但Bellman递归诱导了有利的PL几何结构。论文强化学习Wasserstein策略梯度全局收敛熵正则化Bellman递归推荐理由:做连续控制RL的理论研究者会感兴趣——这篇论文用Bellman结构替代凸性假设,为WPG的全局收敛提供了首个完整证明,建议做策略梯度理论的团队仔细读。原文
11:43arXiv cs.AI@Dingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Zichen Liu, Lue Fan, Zhaoxiang Zhang精选72°MobileGym 是一个轻量级、浏览器托管的移动GUI仿真环境,通过结构化JSON状态实现确定性结果验证,并支持低成本并行rollout,使在线强化学习在移动应用场景中变得可行。该平台单服务器可运行数百个并行实例,每个实例仅需约400MB内存和3秒冷启动,并提供了416个参数化任务模板(256测试+160训练),覆盖28个应用。在Sim-to-Real案例中,使用GRPO在Qwen3-VL-4B-Instruct上训练,测试集准确率提升12.8个百分点,且真实设备执行保留了95.1%的仿真训练收益。MobileGym 解决了移动GUI Agent研究中环境保真度、可扩展性和评估一致性的核心痛点。论文移动GUI Agent仿真平台强化学习并行训练开源/仓库推荐理由:做移动端GUI Agent或强化学习的团队终于有了一个可验证、高并发的仿真平台,不用再依赖私有后端或模糊匹配评估,建议直接看项目页和论文。原文
11:21arXiv cs.AI@Yoosung Hong精选PCSP(Persona Conditioned Shared Policy)是一种基于强化学习的单策略框架,通过冻结LLM嵌入的低秩投影来条件化NPC行为,实现数百至数千个具有一致个性的非玩家角色控制。在300人生命模拟基准上,PCSP实现了零样本个性识别(组合泛化能力比随机高17倍)、语义-行为对齐(Spearman ρ≈0.73),以及比LLM策略基线快22倍的推理速度。该方法结合PPO、InfoNCE一致性损失和KL多样性目标,其中InfoNCE轨迹一致性目标至关重要,移除后零样本识别降至随机水平。在Melting Pot 2.4.0多智能体环境和UE5引擎部署中均验证了其个性条件化行为差异和实时推理能力。论文强化学习NPC控制个性条件化游戏AILLM嵌入推荐理由:游戏AI团队终于有了可落地的NPC个性控制方案——单策略支持数千角色且推理速度比LLM快22倍,做开放世界或模拟游戏的开发者可以直接在UE5中复现。原文
11:20arXiv cs.AI@Jiangwang Chen, Bowen Zhang, Zixin Song, Jiazheng Kang, Xiao Yang, Da Zhu, Guanjun Jiang精选当前大语言模型对话系统本质上是反应式的,只能在用户输入后响应。OnePred 提出通过递归更新的意图记忆来预测用户下一轮查询,无需重读完整对话历史。该方法采用两阶段强化学习训练,先教模型预测什么,再教如何压缩,形成面向预测的意图链。作者还发布了 NQP-Bench 基准测试集,包含三个子集。实验显示,OnePred 将每轮 token 消耗降低最多 22 倍,同时预测质量优于所有基线,在长对话中优势更明显。论文对话系统预测模型强化学习意图记忆NQP-Bench推荐理由:对话系统从反应式走向主动式的关键一步,做对话 AI 或智能客服的团队值得关注,OnePred 的递归记忆思路可以直接参考或复现。原文
10:04arXiv: OpenAI@Shuai Zhen, Yifan Zhang, Yuling Wang, Yanhua Yu强化学习长期面临样本效率低下的问题,利用群不变马尔可夫决策过程(G-invariant MDPs)是一种有前景的缓解方法。现有工作主要关注基于图像的强化学习和旋转对称性(如SO(2)),而基于状态的强化学习和反射对称性尚未充分探索。本文提出Reflex范式,专注于基于状态的连续控制任务,利用反射对称性(包括轴向反射和双侧反射),并与PPO和SAC等算法无缝集成。通过理论分析对称性保持的最优值函数和策略,Reflex引入对称性正则化机制,在OpenAI Gym和DeepMind Control基准测试中显著提升了样本效率和性能。代码已开源。论文强化学习样本效率反射对称性连续控制开源/仓库8 个信源在谈推荐理由:Reflex解决了强化学习样本效率低下的痛点,尤其适合做连续控制任务的RL研究者——直接集成PPO/SAC就能提升性能,值得一试。原文
10:02arXiv cs.LG@Matthias Cosler, Cas Cremers, Bernd Finkbeiner, Mohamed Ghanem, Niklas Medinger本文提出一个基于强化学习的框架,借鉴AlphaZero和AlphaProof的思路,为安全协议分析工具Tamarin实现新的证明搜索方式。该框架通过无状态API将Tamarin转化为经典RL环境,并用蒙特卡洛树搜索结合神经网络启发式,从已完成子证明中学习。在16个案例研究中,该方法比Tamarin标准搜索找到更多自动证明,且生成的证明比标准及人工设计的启发式更短。该框架可直接用于辅助Tamarin用户,减少人工工作量,展示了RL方法在协议验证领域的潜力。论文强化学习安全协议验证Tamarin蒙特卡洛树搜索自动证明推荐理由:做安全协议验证的团队终于有了减少人工的利器——RL框架自动生成更短证明,Tamarin用户可以直接集成到现有工作流中,值得一试。原文
10:01arXiv cs.LG@Nikola Pavlovic, Sattar Vakili, Qing Zhao本文研究了在 episodic 核马尔可夫决策过程(MDP)中仅通过偏好反馈进行强化学习的问题。与传统的数值奖励不同,人类反馈通常以偏好形式出现(如比较两个轨迹的优劣),这更符合 RLHF 的实际场景。作者假设奖励和转移函数属于核函数空间(一种通用的理论分析模型),并设计了基于偏好的值估计和置信集方法,专门处理每轮结束时给出的二元偏好比较。理论结果表明,学习策略的遗憾值随回合数亚线性增长,即最终能收敛到最优策略。该工作为偏好反馈下的强化学习提供了严格的理论基础,尤其适用于奖励难以量化但人类容易比较的场景。论文强化学习偏好反馈RLHF核MDP理论分析推荐理由:偏好反馈是 RLHF 的核心,但理论分析一直稀缺。这篇论文把核 MDP 和偏好学习结合,给出了亚线性遗憾界,做理论强化学习或 RLHF 算法设计的研究者值得细读。原文
09:56arXiv cs.LG@Hamed Shirzad, Frederik Wenkel, Dominique Beaini, Danica J. Sutherland, Emmanuel Noutahi精选知识图谱结构不规则,传统检索方法在组合查询上表现不佳。SeedER 提出一种两阶段检索框架:先用轻量级检索选取核心节点作为种子,再通过强化学习训练的策略进行选择性扩展。该方法将全局推理分解为可复用的局部决策,在控制成本的同时显著提升召回率。实验表明,SeedER 在组合泛化和图约束子模优化方面优于强基线,适合作为知识密集型推理系统的第一阶段检索器。论文知识图谱检索框架强化学习组合查询SeedER推荐理由:做知识图谱检索或知识密集型推理的团队,SeedER 提供了一种低成本高召回的新思路,值得关注其强化学习驱动的扩展策略。原文
11:21arXiv cs.LG@Lily Goli, Justin Kerr, Daniele Reda, Alec Jacobson, Andrea Tagliasacchi, Angjoo Kanazawa精选该研究提出了一种名为 Recuriosity 的强化学习方法,解决好奇心驱动探索在3D环境中容易陷入局部循环的问题。核心创新在于使用在线3D重建作为持久的世界模型,并让智能体通过序列模型维护情景轨迹历史,从而避免重复访问已遗忘状态。仅基于好奇心训练,智能体在 HM3D 数据集上超越了基于强化学习的主动建图基线,并零样本泛化到 Gibson 和 AI 生成的世界。该方法还能高效适配下游任务,如摘苹果和图像目标导航,优于从头训练的基线。论文好奇心驱动3D探索强化学习持久世界模型情景记忆推荐理由:做3D视觉和机器人探索的团队终于有了一个能跳出局部循环的解决方案——持久世界模型加情景记忆的组合直接解决了好奇心驱动的核心痛点,值得在复杂环境中一试。原文
11:09arXiv cs.AI@Long Phan, Devin Kim, Alexander Pan, Alice Blair, Adam Khoja, Dan Hendrycks精选研究发现大语言模型在处理对立政治话题时存在不对称性,表现为隐蔽政治偏见,包括7类操纵技术。作者提出两个新指标:情感一致性和帮助一致性,分别衡量修辞框架和交互深度的对称性。为减少这种偏见,他们提出政治一致性训练(PCT),包含情感一致性和帮助一致性两种互补的强化学习范式。实验表明PCT在保持模型整体帮助性的同时,显著降低了隐蔽政治偏见,并能泛化到未见的基准测试。相关代码和数据已开源。论文大语言模型政治偏见一致性训练强化学习开源/仓库推荐理由:这项研究戳中了LLM在敏感话题上的隐藏偏见问题,做AI安全、内容审核或政治相关应用的团队值得关注,可以直接用PCT方法减少模型被操纵的风险。原文
10:58arXiv cs.AI@Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit Agrawal精选72°当前大语言模型的后训练通常优化单一标量奖励,导致输出分布低熵,难以在推理时搜索(如AlphaEvolve)中展现多样性。本文提出向量策略优化(VPO),一种显式训练模型适应多样化下游奖励函数并产生多样化解决方案的强化学习算法。VPO利用实践中奖励常为向量形式(如代码生成的逐测试用例正确性、多种用户画像或奖励模型),作为GRPO优势估计器的即插即用替代,训练模型输出一组解,每个解专门针对向量奖励空间中的不同权衡。在四个任务上,VPO在测试时搜索(如pass@k和best@k)中匹配或超越最强标量RL基线,且差距随搜索预算增大而扩大。对于进化搜索,VPO模型能解决GRPO模型完全无法解决的问题。论文强化学习推理时搜索多样性训练VPOGRPO推荐理由:VPO解决了LLM在推理时搜索中缺乏多样性的痛点,做强化学习后训练或推理时搜索的团队值得关注,它直接替换GRPO就能提升搜索效果。原文
12:27arXiv cs.LG@Elle Miller, Jayaram Reddy, Ayush Deshmukh, Trevor McInroe, David Abel, Oisin Mac Aodha, Sethu Vijayakumar精选72°机器人触觉强化学习(RL)研究因碎片化和过度关注饱和的定向任务而受阻。roto 2.0 是一个 GPU 并行化的基准测试,覆盖四种不同机器人形态(16-24 自由度),专注于仅依赖本体感觉和触觉的“盲”操作,无需状态信息或知识蒸馏。其盲代理在 10 秒内完成 13 次 Baoding 球旋转,速度比当前最先进水平快一个数量级。通过开源环境和调优基线,该工作降低了入门门槛,让研究者能聚焦核心算法挑战。论文触觉感知强化学习机器人操作基准测试GPU并行推荐理由:触觉 RL 终于有了标准化的 GPU 并行基准,做机器人操作和强化学习的团队可以直接用 roto 2.0 测试算法,不用再花时间调环境——盲操速度提升 10 倍的结果值得点开看看。原文
12:11arXiv cs.LG@Kaiyi Zhang, Wei Wu, Yankai Lin精选DelTA提出了一种新方法,解决强化学习从可验证奖励(RLVR)中训练大语言模型时,token级信用分配不准确的问题。研究发现,标准RLVR更新中,高频格式token会主导梯度方向,掩盖真正区分高/低奖励的关键token。DelTA通过估计token系数,放大判别性方向、抑制共享模式,使更新更聚焦于推理关键步骤。在7个数学基准上,DelTA在Qwen3-8B和14B上分别平均提升3.26和2.62分,代码生成和跨领域任务也验证了其泛化能力。论文强化学习Token信用分配推理模型RLVR数学推理推荐理由:做RLHF或推理模型训练的团队,终于有了一个能精准分配token级信用的方法——DelTA解决了高频格式token淹没关键信号的问题,数学和代码任务上效果显著,值得在自家模型上试试。原文
12:09arXiv cs.LG@Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng精选76°研究发现强化学习(RLVR)训练中模型权重的变化轨迹是低秩且高度可预测的,大部分性能提升来自秩-1近似。基于此,研究者提出RELEX方法,仅需观察少量训练步数(如50步),通过线性回归外推未来检查点(如1000步),即可匹配甚至超越完整RLVR训练的性能。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上验证,RELEX仅需15%的训练步数即可达到同等效果,且能外推至10-20倍于观察窗口。该方法无需额外学习模型,通过丢弃随机优化噪声实现去噪效果,从而提升外推性能。论文强化学习推理模型低秩近似参数外推Qwen推荐理由:RLVR训练成本高昂,RELEX用极低成本实现同等推理提升,做LLM推理优化的团队可以直接用代码复现,值得一试。原文
11:13arXiv cs.AI@Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky精选这篇论文研究了在模拟器与真实实验之间如何权衡的问题。模拟器成本低但存在校准偏差,真实实验无偏但成本高。作者提出了一个扩展的模拟引理,将模拟器的价值误差分解为可识别的校准-部署偏移和不可减少的参数残差。他们还分析了模拟器最优策略与真实最优策略之间的价值差距,分为局部和可达性两部分。最后,提出了Fisher-SEP算法,通过最小化目标策略价值的后验预测方差来指导实验设计,并在自动售货机供应链和HIV移动测试两个案例中验证了其有效性。论文模拟到真实迁移强化学习实验设计Fisher-SEP价值差距推荐理由:这篇论文为做强化学习或机器人部署的团队提供了一个严谨的框架,帮你判断什么时候该相信模拟器、什么时候该做真实实验。做仿真到真实迁移的开发者可以直接参考其Fisher-SEP算法来优化实验预算。原文
11:09arXiv cs.AI@Xiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian精选Mem-π 是一种新型自适应记忆框架,它让大语言模型智能体在需要时动态生成指导,而不是从外部存储中检索静态条目。该框架使用独立的语言或视觉语言模型,基于当前上下文决定是否生成以及生成什么指导,并通过决策-内容解耦的强化学习目标进行训练。在网页导航、终端工具使用和文本交互等基准测试中,Mem-π 相比检索式记忆和之前强化学习优化的基线方法表现更优,在网页导航任务上实现了超过30%的相对提升。论文智能体记忆增强强化学习网页导航工具使用推荐理由:做AI智能体开发的团队终于有了解决记忆错配问题的方案——Mem-π 让智能体学会“按需生成”而非“死板检索”,在复杂任务中效果显著,建议研究记忆增强的开发者点开看看。原文
10:22arXiv cs.LG@Yang Wu, Qiang Meng, Zhaojiang Liu, Youquan Liu, Jian Yang, Jin Xie精选当前端到端自动驾驶模型受限于模仿学习的行为克隆天花板,强化学习虽能实现更智能的自主性,但缺乏认知基础和前瞻性物理环境。为此,研究者提出CoPhy框架,通过蒸馏VLM知识到BEV编码器,在零推理成本下保留认知能力,并构建自回归BEV世界模型预测未来语义地图,作为可解释的物理沙盒。该框架采用GRPO优化策略,结合物理奖励(确保硬安全约束)和认知奖励(确保意图合规),在NAVSIM v1和v2基准上达到最先进结果,并支持用户自定义语言指令实现灵活意图控制。论文自动驾驶强化学习VLM蒸馏BEV世界模型安全约束推荐理由:自动驾驶团队终于有了兼顾安全与意图的强化学习方案——CoPhy用蒸馏VLM和BEV世界模型解决了行为克隆的瓶颈,做端到端驾驶的开发者可以直接参考其双奖励机制。原文
15:34arXiv cs.AI@Utkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He精选强化学习中的可验证奖励(RLVR)在自动检查正确性时很有效,但许多模型行为需要同时满足多个定性标准。基于评分标准的奖励(rubric-based rewards)通过聚合多个标准来解决这一问题,但静态聚合会混淆人类赋予的重要性和当前优化信号的有效性。研究人员提出POW3R框架,它能在训练过程中动态调整各标准的奖励权重,优先关注当前能区分模型输出的标准。实验表明,POW3R在30个基线策略/指标比较中赢了24个,平均奖励和严格完成率均优于传统方法,且训练速度提升2.5-4倍。论文强化学习奖励设计RLVR评分标准POW3R推荐理由:做RLHF或RLVR的团队终于有了更聪明的奖励设计——POW3R解决了静态评分标准浪费训练信号的问题,做多模态或文本模型对齐的开发者可以直接参考实验设置。原文
11:41arXiv: Google DeepMind@Bosun Liang, Shuo Pei, Zirui Chen, Chuanzhi Fan, Chen Sun, Yuankai Wu, Huachun Tan, Yong Wang精选强化学习常产生高频振荡控制信号,影响物理部署的安全与稳定。显式动作分块虽能预测固定轨迹,但会扩大策略输出维度,导致优化困难。本文提出双窗口平滑(DWS)框架,通过隐式动作分块实现平滑连续控制,无需扩展动作空间。DWS包含执行窗口(确保物理平滑)和价值窗口(修正评论家偏差),并引入轻量级时序正则化器。在DeepMind控制套件、工业能源管理及视觉自动驾驶任务中,DWS超越现有方法,实现100%成功率。论文强化学习连续控制动作分块平滑控制DWS推荐理由:做机器人控制或自动驾驶的团队,DWS解决了强化学习控制信号抖动这个老大难问题,无需增加模型复杂度就能提升安全性和成功率,值得在你们的仿真或实机任务上试试。原文
10:51arXiv: DeepSeek@Ali Mohammadi Esfahani, Nafiseh Kahani, Samuel A. Ajila精选研究人员提出一个基于强化学习的框架,将提示词优化建模为序列决策问题。PPO代理通过混合动作空间(直接生成、遗传变异、语义重写)迭代改进提示词,并利用单元测试反馈的奖励信号驱动优化。在MBPP+、HumanEval+和APPS基准上,使用CodeT5+、CodeLLaMA和DeepSeek-Coder作为冻结代码生成器,PPO代理在MBPP+的500任务测试集上分别达到57.58%、64.80%和85.50%的严格Pass@1,优于EPiC、Reflexion和随机混合方法。软Pass@1分别达到67.90%、73.10%和88.20%。结果表明,带形状奖励的强化学习能显著提升LLM代码生成的功能正确性。论文提示词优化强化学习代码生成PPOLLM推荐理由:做LLM代码生成或提示词工程的开发者,这个框架直接解决了提示词敏感性问题——用RL自动优化提示词,比手动调参高效得多,建议关注其混合动作空间和奖励设计。原文
10:44arXiv: DeepSeek@Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li精选GoLongRL 是一个完全开源的长上下文强化学习训练方案,包含 23K 样本的数据集、完整构建流程和训练代码。该方案基于长上下文能力分类法,覆盖 9 种任务类型,每个任务配有自然评估指标,数据来源包括书籍、学术论文和多轮对话等真实文档。在相同 GRPO 设置下,GoLongRL 数据集优于闭源的 QwenLong-L1.5 数据集,且 Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B。此外,论文提出 TMN-Reweight 方法,通过任务级均值归一化和难度自适应加权,解决异构奖励优化问题,进一步提升平均性能并保持通用能力。论文长上下文强化学习开源/仓库RLVR多任务对齐推荐理由:长上下文 RL 训练的数据构建和奖励设计一直是个难题,GoLongRL 提供了开源数据集和优化方法,做长上下文模型训练的团队可以直接复用,省去大量数据构造工作。原文
10:40arXiv cs.AI@Franco Terranova, Guillermo Bernardez, Albert Cabellos-Aparicio, Nina Miolane, Abdelkader Lahmadi精选图组合优化(GCO)问题因NP难特性而难以精确求解,现有基于强化学习(RL)和图神经网络(GNN)的方法在泛化性和计算可扩展性上存在局限。本文提出Projection Agents,直接在连续GNN动作嵌入空间中预测潜在动作,并通过单次前向传播解码为有效离散动作,避免了传统逐步搜索的开销。该方法在多个基准上实现最高16.2倍推理加速和40%更好的泛化性能,尤其适用于超线性决策空间。同时,作者开源了LaGCO-RL库,支持自动构建潜在动作空间并兼容现有RL-GCO方案,便于复现和适配新问题。论文图组合优化强化学习图神经网络潜在动作空间开源/仓库推荐理由:做图组合优化或RL求解NP-hard问题的研究者,这篇论文解决了泛化差和扩展性瓶颈,16倍加速和40%泛化提升值得一试,开源库还能直接复用。原文
10:27arXiv cs.AI@Yin Xiaolong, Liu Yu, Shen Jiahang, Lu Xingyu, Ni Jingzhe, Fan Fengxiao, Sang Fan精选本文提出一种记忆增强的强化学习框架,用于自动生成计算机辅助设计(CAD)模型。现有基于大语言模型的方法在处理长操作序列、多样操作类型和强几何约束的复杂CAD时,常因推理链断裂和缺乏纠错机制而失败。新框架将底层几何内核封装为可调用的结构化工具链,构建了从意图理解、全局规划、执行到多维验证的闭环机制,并设计了包含案例库和技能库的双轨记忆模块及动态效用检索算法。通过引入强化学习优化检索与策略,智能体可避免语义相似但几何不可行的检索陷阱,实现在线自我纠错和持续进化,无需额外大规模标注数据。实验表明,该方法在复杂CAD生成任务上显著提升了成功率和几何一致性。论文CAD生成强化学习记忆增强智能体几何约束推荐理由:做CAD自动生成或智能制造AI的团队,这个框架解决了长序列建模和几何约束的痛点,强化学习+记忆库的设计值得参考,可以直接复现实验。原文
10:16arXiv cs.AI@Pierre Boudart, Pierre Gaillard, Alessandro Rudi精选该论文研究了基于多项逻辑(MNL)模型的马尔可夫决策过程(MDPs)的强化学习问题。现有算法对MNL混合MDPs的遗憾界为Õ(dH²√T),其中d是特征维度,H是回合长度,T是回合数。作者引入了一个问题依赖常数σ̄_T(≤1/2),衡量最优下游值函数沿学习轨迹的归一化平均方差,并提出了一个遗憾界为Õ(dH²σ̄_T√T)的算法。该算法在最坏情况下恢复现有界,在结构化MDPs(如KL约束鲁棒MDPs)中可将H依赖因子降低H倍。此外,论文证明了匹配的下界Ω(dH²σ̄_T√T),首次完全刻画了MNL混合MDPs的遗憾复杂度(达到对数因子内的极小化最优)。论文强化学习MDP多项逻辑模型遗憾界极小化最优推荐理由:这篇论文首次给出了MNL混合MDPs的极小化最优遗憾界,对研究强化学习理论或设计高效算法的研究者来说,是理解问题复杂度的重要参考。原文
14:44arXiv cs.LG@Muhammad Umer, Muhammad Ahmed Mohsin, Ahsan Bilal, Arslan Chaudhry, Andreas Haupt, Sanmi Koyejo, Emily Fox, John M. Cioffi精选论文提出通用偏好强化学习(GPRL),旨在弥合在线强化学习与偏好优化之间的鸿沟。传统在线RL依赖可验证奖励,在数学和代码任务上表现优异,但无法处理开放式任务;偏好优化虽能处理开放式生成,却缺乏在线RL的持续探索能力。GPRL基于通用偏好模型(GPM),将响应嵌入k个斜对称子空间,以结构化、非传递性感知的比较表示偏好,并在策略更新中保留k维结构。它计算每维度的组相对优势,独立归一化防止单一维度主导,并通过上下文相关特征值聚合。GPRL还包含闭环漂移监控器,可检测并纠正单轴利用。基于Llama-3-8B-Instruct,GPRL在AlpacaEval 2.0上达到56.51%的长度控制胜率,并在Arena-Hard、MT-Bench和WildBench上优于SimPO和SPPO,有效抵抗奖励黑客攻击。论文强化学习偏好优化对齐奖励黑客GPRL推荐理由:做LLM对齐和强化学习的团队终于有了一个能同时处理开放式任务和持续探索的框架——GPRL用多维偏好结构解决了奖励黑客问题,值得关注其实际效果。原文
14:36arXiv cs.AI@Qisai Liu, Zhanhong Jiang, Joshua Russell Waite, Aditya Balu, Cody Fleming, Soumik Sarkar精选COOPO 是一种新型强化学习框架,通过循环交替进行约束离线训练和在线微调,解决了离线强化学习中的分布偏移和在线学习中的高交互成本问题。该算法在每个循环中先用 KL 正则化的优势加权更新锚定策略,再用任意策略优化进行在线微调,定期回归离线训练可消除遗忘和漂移。理论证明 COOPO 在标准覆盖假设下能实现单调改进,在线样本效率优于纯在线 RL。在 D4RL 基准测试中,COOPO 相比最先进的混合方法减少了在线交互次数,同时提升了最终回报,且对不同离线算法和在线优化器具有鲁棒性。论文强化学习离线-在线混合策略优化D4RLCOOPO推荐理由:做强化学习研究的团队终于有了一个能同时解决分布偏移和灾难性遗忘的通用框架——COOPO 的循环设计让离线数据复用和在线探索形成正向循环,D4RL 上效果显著,建议做 RL 算法开发的同学点开看理论证明和实验细节。原文
11:34arXiv cs.AI@Guining Cao, Jiaxin Peng, Chu Zeng, Yu Zhao, Shuangyong Song, Yongxiang精选现有强化学习方法在可验证任务中表现优异,但在开放生成任务中面临奖励模型训练成本高、输出多样性差的问题。研究者提出PPR-GDE方法,无需标量奖励,通过成对偏好奖励保留主观评价的比较结构,并引入群体级多样性奖励显式鼓励语义分散。该方法在角色扮演任务上实现了比强基线更好的对齐质量和表达多样性。实验表明,成对偏好对主观偏好对齐至关重要,而多样性指标对实现更广的语义覆盖不可或缺。论文强化学习开放生成偏好对齐多样性增强角色扮演推荐理由:做开放域文本生成(如角色扮演、创意写作)的团队,终于有了一个兼顾对齐质量和输出多样性的RL方法,不用再担心模型输出千篇一律,值得点开看实现细节。原文
10:13arXiv cs.AI@Shuyin Ouyang, Zhaozhi Qian, Faroq AL-Tam, Muhammad AL-Qurishi, Jie M. Zhang精选该论文系统研究了扩散语言模型在代码生成中的强化学习后训练,重点探索了三种维度:奖励设计、提示条件采样和任务难度。研究发现,静态检查作为无需执行的奖励信号,在HumanEval上使DiffuCoder从53.9提升至67.1,在LiveCodeBench上从14.9提升至15.5,同时减少9.4%的推理时间。中等程度的AST提示在困难任务上最有效,而奖励设计的最佳选择依赖于任务难度:相似度奖励在简单子集上更优,静态检查在困难子集上更可靠。这些发现表明,奖励设计和训练指导显著影响扩散RL在代码生成中的表现。论文代码生成强化学习扩散模型静态分析奖励设计推荐理由:做代码生成模型训练的团队会发现,静态检查奖励比执行测试更高效且能避免能力悬崖,建议在困难任务上优先采用。原文
12:26arXiv: Google DeepMind@Shaojun Xu, Xiaoling Zhou, Yihan Lin, Yapeng Meng, Xinglong Ji, Luping Shi, Rong Zhao精选Mind Dreamer 提出一种名为主动潜变量干预(ALI)的框架,解决基于模型的强化学习中“历史束缚”问题——传统方法只能从观测状态开始想象,导致策略优化滞后于世界模型学习。它通过对抗生成器合成非连续的潜变量跳跃,探索物理可行但认知困难的盲点,并推导出中继价值函数和中继不确定性函数来分配跨空间断裂的信用。理论证明不确定性传播需要二次折扣,建立了形式化的认知视界。在DeepMind Control Suite上,Mind Dreamer 平均比 DreamerV3 快1.67倍,在稀疏奖励任务中加速达8.8倍。论文强化学习基于模型的强化学习稀疏奖励潜变量干预DreamerV3推荐理由:做强化学习稀疏奖励研究的团队终于有了突破历史束缚的新工具——Mind Dreamer 通过主动生成想象起点,大幅提升样本效率,建议跑过 DreamerV3 的开发者直接试。原文
12:12arXiv cs.AI@Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, Fuli Feng精选72°论文指出基于大语言模型的智能体在陌生环境中常因过早利用先验知识而失败,提出自主探索能力是关键但被忽视的环节。作者引入可验证的探索检查点覆盖率指标,量化智能体发现关键状态、物体和功能的能力。实验发现标准任务导向强化学习训练出的智能体行为狭窄重复,阻碍下游性能。为此提出探索-执行交替训练策略,并构建先探索后行动的范式,让智能体先利用交互预算获取环境知识再执行任务。结果表明系统学习探索对构建通用、真实世界可用的智能体至关重要。论文智能体自主探索强化学习LLM Agent探索-执行范式推荐理由:这篇论文直击 LLM Agent 在陌生环境中的核心短板——过早行动,做智能体开发或强化学习的研究者值得一读,提出的探索-执行范式可以直接启发你的训练策略。原文
12:00arXiv cs.AI@Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, Xinyu Wang精选76°Argus 提出了一种新的深度研究方法,通过 Searcher 和 Navigator 两个智能体协作,将研究任务视为拼图组装而非暴力并行搜索。Navigator 维护共享证据图,验证缺失信息并调度 Searcher 收集,最终生成带来源追踪的答案。在 35B-A3B MoE 模型上,单 Searcher 提升 5.5 分,8 个并行 Searcher 提升 12.7 分,64 个 Searcher 在 BrowseComp 上达到 86.2,超越所有专有智能体,且 Navigator 推理上下文保持在 21.5K tokens 以内。该方法解决了并行搜索中证据重复和上下文超限的问题。论文深度研究智能体并行搜索证据组装强化学习推荐理由:做深度研究智能体或搜索系统的团队,终于有了解决并行搜索证据重复和上下文瓶颈的方案——Argus 用拼图式组装替代暴力搜索,效率提升明显,值得在复杂信息检索任务中尝试。原文
10:39arXiv cs.LG@Vaidehi Bagaria, Nikshep Grampurohit, Pulkit Verma精选该论文发现GRPO算法在VLA策略强化学习中,梯度计算占78%时间,而大部分计算浪费在策略已掌握的阶段。为此提出概率性分块掩码(PCM),通过成功-失败动作方差识别关键阶段,仅对少量分块进行梯度更新。PCM无需额外奖励模型,在LIBERO基准上保持相同成功率的同时,实现2.38倍加速、4.8倍梯度更新加速和60%峰值内存降低。论文强化学习VLA策略GRPO梯度加速机器人推荐理由:做VLA机器人强化学习的团队终于有了省算力的方案——PCM直接替换GRPO就能省60%内存、快2倍多,效果还不打折,建议做后训练优化的点开看看。原文
10:37arXiv cs.LG@Yifan Zhang, Liang Zheng精选现实世界的控制系统常面临分段平稳环境,即动态长期稳定后突然发生模式切换。标准鲁棒强化学习方法面临两难:全局保守策略在稳定期性能浪费,而局部自适应策略在未检测到模式变化时可能导致灾难性失败。本文提出BAPR(贝叶斯遗忘分段鲁棒SAC),将贝叶斯在线变化检测(BOCD)与鲁棒集成强化学习统一。BAPR算子是一个γ-压缩映射,通过冻结信念分布加权模式条件贝尔曼算子的凸组合。论文通过Lean 4形式化验证了尖锐边界:当信念依赖于Q函数时,压缩因子变为γ+λΔ,且当γ+λΔ≥1时压缩失败。BOCD驱动自适应保守机制:检测到变化点后策略变得极度保守,随置信度增长平滑放松,检测延迟为O(log(1/δ))。论文强化学习非平稳控制贝叶斯变化检测鲁棒控制Lean 4形式化验证推荐理由:做非平稳控制或鲁棒强化学习的团队终于有了一个理论扎实且可验证的方案——BAPR在稳定期和变化期之间自动平衡保守性,Lean 4形式化验证保证了可靠性,值得研究RL安全性的开发者点开。原文
10:52arXiv cs.AI@Ziyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng精选ATLAS 提出了一种新框架,用一个离散的“功能标记”(functional token)同时作为代理操作和潜在视觉推理单元,避免了传统方法中生成中间视觉内容的高计算成本。该标记无需视觉监督,保持标准词汇表格式,可通过下一个词预测生成,兼容标准 SFT 和 RL 训练。针对强化学习中功能标记稀疏的问题,引入 Latent-Anchored GRPO 稳定训练。实验表明 ATLAS 在挑战性基准上表现优异且可解释性强。这项工作为视觉推理研究提供了新范式。论文视觉推理功能标记强化学习ATLAS多模态推荐理由:ATLAS 用单个词解决视觉推理中计算开销和泛化难题,做多模态或视觉推理的开发者可以直接参考其设计思路,值得关注。原文
10:05arXiv cs.AI@Luca Marzari, Enrico Marchesini精选针对循环神经网络(RNN)在部分可观测强化学习中的策略验证难题,研究者提出RNN-ProVe框架。该框架通过策略驱动采样近似隐藏状态空间,并利用统计误差界给出行为违规的高置信度概率估计。实验表明,RNN-ProVe在单智能体和多智能体任务中,比现有工具提供更定量、更可行的概率保证,且能扩展到循环和多智能体场景。论文强化学习循环神经网络概率验证多智能体RNN-ProVe推荐理由:做强化学习验证或RNN策略安全的团队,终于有了一个能给出概率性保证的实用工具,比传统过近似方法更精准,值得关注。原文