全部 AI 动态 · AI 热点

6月30日

11:20

arXiv cs.LG@Jan Stenner, Alexander Kilian, Sebastian Peitz, Hermann de Meer

该论文研究了强化学习作为在线控制器，用于风电场内数据中心的高性能计算（HPC）工作负载转移。使用固定日仿真框架结合合成风能和电价信号以及延迟完成反馈进行测试。在单个风轮机和单个数据中心的基准场景中，纯强化学习存在信用分配问题，早期白天未能充分利用免费风能。评估了两种互补措施：基于优化的模仿学习和基于势能的奖励塑造。在200天测试集上，PPO和SAC变体表现出色，但性能仍低于具有全局视野的优化器。

论文强化学习数据中心风电场 PPO SAC

推荐理由：这篇论文用强化学习让风电场数据中心更省电，在单机场景下比较了PPO和SAC的效果，还试了模仿学习和奖励塑造。

原文

10:38

arXiv: Google DeepMind@Qijun Li, Zheng Fu, Qi Song, Yifei He, Weitao Zhou, Kun Jiang, Diange Yang

精选

Dual-Flow RL利用条件流匹配（CFM）同时建模回报分布和多模态策略分布，克服了传统单峰高斯价值估计的偏差问题。该方法引入熵-协方差探索调节器（ECER），实现基于状态的自适应探索。在DeepMind Control Suite的36个任务中，Dual-Flow RL在32个任务上取得最优，并在Humanoid-Bench上显著优于diffusion-based和flow-based方法。ECER通过策略熵与动作不确定性协方差动态调节探索强度，避免了模式坍塌。

论文 Dual-Flow RL DeepMind Control Suite Humanoid-Bench 强化学习多模态探索

推荐理由：这篇论文用条件流匹配把回报分布和多模态策略一起建模，解决了强化学习中的多模态探索难题，在DeepMind控制任务上吊打了扩散方法。

原文

6月26日

11:36

arXiv cs.AI@Henrik Müller, Daniel Kudenko

研究人员提出VLM-PBRS框架，利用轻量级视觉语言模型（VLM）的偏好反馈学习势函数，实现自动化基于势能的奖励塑形（PBRS）。该方法在Meta-World和Franka Kitchen环境上验证，相比无塑形的基线，样本效率提升且未导致奖励黑客。实验表明，即使使用计算开销更小的小型VLM，其偏好标签仍能有效加速强化学习策略训练。该工作是首个将VLM偏好学习应用于PBRS势函数合成的研究。

论文 VLM-PBRS 强化学习奖励塑形 Meta-World Franka Kitchen

推荐理由：这论文教你用VLM给RL智能体自动设计奖励函数，不用手动调公式，在Meta-World和Franka Kitchen上训练更快，还防奖励黑客。

原文

11:35

arXiv cs.AI@Ilia Larchenko

该解决方案在ICRA 2026的LeHome Challenge双手机器人叠衣比赛中获得线上62支队伍第一名、线下决赛第二名。核心是将视觉-语言-动作(VLA)策略与强化学习循环结合，使同一网络既预测动作又预测成功率和未来量。方法组合了AWR+RECAP用于流匹配VLA，通过HuggingFace Hub实现异步分布式训练/部署管线，并采用Thompson采样优化推理时超参数。模拟到现实的迁移使用相机对齐工具、数据增强和DAgger式人类干预数据采集。

论文 LeHome Challenge ICRA 2026 VLA 强化学习机器人叠衣

推荐理由：一个靠强化学习微调VLA在叠衣服任务上拿第一的方案，工程细节丰富，从训练到部署都有具体做法。

原文

10:46

arXiv cs.LG@Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, Xunpeng Huang, Kun Zhou, Tongtong Liang, Zhewei Yao, Yi-An Ma, Yuxiong He

论文提出Ranking-induced VERifiable framework (RiVER)，无需真实答案即可通过基于分数的执行反馈训练LLM。在12个AtCoder Heuristic Contest任务上训练后，Qwen3-8B在Algorithm Engineering Benchmark (ALE-Bench)上的rating rank提升8.9%，GLM-Z1-9B-0414提升9.4%。同时，RiVER在LiveCodeBench和USACO等精确求解基准上分别带来2.4%和3.5%的绝对平均提升。对比基线表明，仅用原始执行分数训练可提升ALE rating但无法泛化到精确求解任务。

论文 RiVER Qwen3-8B GLM-Z1-9B-0414 强化学习编程能力

推荐理由：论文介绍RiVER，用强化学习训练模型解决无标准答案的得分优化问题，还能顺带提升常规编程基准，实用思路值得一看。

原文

09:46

arXiv cs.AI@Jesper Klicks, Sander Vržina, Vincent François-Lavet

这篇论文研究了深度强化学习中状态表示对抽水蓄能交易决策的影响，固定使用Double DQN智能体和HydroDam环境。对比绝对价格/日历特征、相对特征和预测特征三种特征家族，组合使用绝对+相对+预测特征在比利时2007–2011数据上训练，在2012–2025的相同市场测试集上达到55.6%的分数，跨39个ENTSO-E市场区域的分数中位数为47.5%，显著优于单独使用绝对特征（测试集28.8%，跨区中位数5.7%）或相对特征。结果表明状态表示是储水交易强化学习策略设计的核心，而非次要预处理选择。

论文 Double DQN HydroDam 状态表示强化学习迁移学习

推荐理由：想知道强化学习里状态怎么设计才能跨市场通用？这篇论文用Double DQN和HydroDam做了严谨对比，绝对+相对+预测特征组合最好。

原文

6月25日

10:59

arXiv cs.AI@Shuyi Zhang, Yunfan Lou, Hongyang Cheng, Yichen Guo, Chuyao Fu, Yaoxu Lyu, Xiaojie Zhang, Haoran Li, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

FORCE是一个三阶段框架，通过价值校准热身和自蒸馏来稳定VLA模型的强化学习微调。它解决了Q函数不稳定导致的初期遗忘和低质量探索数据导致的策略更新低效问题。在模拟和真实任务上，FORCE取得了79%的绝对成功率提升，比此前RL方法高出10%，同时训练速度加快32.5%。该框架无需人工干预即可实现稳健性能。

AI模型 FORCE VLA 强化学习机器人

推荐理由：新框架FORCE让机器人学动作更快更稳，成功率飙升79%，比现有RL方法还快32.5%，不用人插手。

原文

10:46

arXiv cs.LG@Andrei Liviu Nicolicioiu, Mohammad Pezeshki, Aaron Courville

一篇论文研究了基于采样示范的在线自蒸馏方法对输出多样性的影响。该方法通过单一模型同时作为教师和学生，教师以正确示范为条件提供密集的token级反馈，在pass@1准确率上表现优异。但论文发现，这会导致推演多样性降低，pass@k曲线变平，即增加推演次数无法提升准确率。作者将原因追溯到自蒸馏设计中的复合偏差：教师在对学生推演评分时以采样到的正确推演为条件，通过模型自身偏见传导反馈。在可控的图路径发现任务和科学问答基准上，自蒸馏模型在平均性能上与强化学习相当或更优，但功能和语义多样性显著下降，在需要多样化策略的分布外场景中失败。

论文 self-distillation 强化学习输出多样性 pass@k 推理模型

推荐理由：这篇论文揭示了自蒸馏方法的一个隐藏缺陷：虽然准确率不错，但多样性会变差，导致复杂推理场景下失效。做RL或推理模型的人值得看看。

原文

10:40

arXiv cs.LG@Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao

该论文通过实验发现，多步工具使用强化学习（RL）训练中，模型可出现灾难性崩溃，性能骤降且工具调用结构失效。根本原因是特定控制token概率突增，但基础工具使用能力并未丢失。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号，并比较了同步与交错训练方案。结果表明，将监督微调（SFT）与RL交错进行可显著提升稳定性，但在格式和内容分布外（OOD）评估中性能下降。该工作揭示了RL失败机理，并展示了多样化监督信号对鲁棒训练的价值。

论文 LLM 强化学习工具使用 SFT 监督信号

推荐理由：这篇论文分析了多步工具RL训练容易崩溃的原因，并实验证明交错SFT与RL能有效提升稳定性，对做智能体RL的人很有参考价值。

原文

10:30

arXiv cs.AI@Thiago Thomas, Gabriel de Oliveira Ramos, Felipe Meneguzzi

多智能体目标识别要求观测者联合推断哪些智能体组成团队及其目标，假设空间随团队划分和目标数量组合增长。MAGR-BB采用共享的团队与目标条件策略作为评分模型，在因子化分支定界搜索中评估假设。在受控的多智能体Blocksworld基准测试中，MAGR-BB在整个轨迹中与穷举搜索返回相同的最高排名假设，同时将假设实例化数量减少几个数量级，累计识别运行时间大幅降低。

论文 MAGR-BB Blocksworld 多智能体强化学习分支定界

推荐理由：这篇论文提出了MAGR-BB，用强化学习和分支定界让多智能体目标识别又快又准，Blocksworld上效果拔群。

原文

09:44

arXiv cs.AI@Peng Xu, Sijia Chen, Junzhuo Li, Xuming Hu

论文提出SCPO，一种价值无关的奖励塑造方法，通过对比同组内成功与失败轨迹的中间步骤，为失败步骤恢复正向信用。该方法解决了因轨迹最终结果不同导致语义相似的中间步骤获得相反信用的问题。在ALFWorld基准上，1.5B参数模型达到93.7%±4.1%成功率；在WebShop基准上达到74.8%±2.0%成功率，提升集中在最难的多步任务。

论文 SCPO ALFWorld WebShop 强化学习智能体

推荐理由：这篇论文解决了强化学习给LLM智能体分配奖励时的一个逻辑问题：相同意思的步骤因轨迹成败拿了相反信用。SCPO在ALFWorld和WebShop上跑分挺高，最难的步骤提升明显。

原文

09:38

arXiv cs.AI@Ke Zhao, Zixiang Di, Hong Qian, Xiang Shu, Yaolin Wen, Qitao Shi, Bingdong Li, Xingyu Lu, Xiangfeng Wang, Jun Zhou, Ke Tang, Yang Yu

MiniOpt是一种强化学习框架，采用“推理-建模-求解”范式来优化问题。其OptReward奖赏函数通过分层分数结构联合评估建模与求解，避免专家演示依赖。在少于10B参数的模型中，MiniOpt系列取得最高平均求解精度(SA)。MiniOpt-3B在多种优化类型和任务领域展示强泛化能力，代码已开源。

AI模型 MiniOpt 强化学习优化开源模型 LLM

推荐理由：想用小型模型搞定各种优化问题？MiniOpt用3B参数就做到了不错的效果，而且代码开源随便玩。

原文

6月24日

11:44

arXiv cs.LG@Anurag Akula, Satheesh K. Perepu, Abhishek Sarkar, Kaushik Dey

ASALT是一种针对多智能体强化学习（MARL）的迁移学习方法，解决了源域和目标域观测空间与全局状态空间维度不匹配的问题。该方法引入观测层和状态层适配器，将目标域观测和全局状态映射到共享嵌入空间，支持跨异构域的策略迁移。在标准基准环境的多个配置上，ASALT在合作场景中相比现有基线提升了样本效率和全局回报，但效果依赖于源域与目标域的不匹配程度。实验还表明ASALT能缓解负迁移，这是跨不同观测和动作空间域迁移时的常见障碍。

AI模型 ASALT MARL 多智能体迁移学习强化学习

推荐理由：ASALT这个新方法解决了MARL中状态空间维度不同时知识迁移的难题，实验效果不错，值得做多智能体迁移学习的同学看看。

原文

6月23日

12:56

arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman

72°

SPIRAL提出一种新训练框架，让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件，在推理任务中扩展效果优于GRPO，最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。

论文 SPIRAL GRPO 推理模型强化学习链式思维

推荐理由：这篇论文的SPIRAL方法教模型自己学会并行思考再汇总，比单纯加大顺序推理高效11倍，效果还更好，值得做推理扩展的朋友看看。

原文

12:36

arXiv: OpenAI@Cong Han, Xiaohan Lan, Haibo Qiu, Yujie Zhong

AIR方法通过扩展强化学习训练，使MLLMs具备自适应交错推理能力，专门处理代码增强的复杂数值计算任务。该方法包含两阶段冷启动数据构建、强化学习数据集筛选策略，以及基于群约束奖励函数的自适应工具调用策略。在评测基准上，平均性能提升6.1个百分点，其中交错推理样本准确率提高9.9个百分点，工具调用成功率超过95%。论文代码和数据集已开源。

论文 AIR MLLMs OpenAI o3 交错推理强化学习

推荐理由：这篇论文让MLLMs学会用代码做数值推理，准确率涨了6个点，工具调用成功率超95%，代码开源可复现。

原文

6月19日

10:16

arXiv cs.AI@Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang, Jingwen Fu, Zhen Liu, Bin Qin, Zhenbo Luo, Jian Luan, Jingmin Xin

ELVA提出一种基于规则强化学习（RLVR）的框架，解决对比学习在多模态检索中的“粒度盲视”问题——模型忽略查询中的粒度信息。该方法不依赖奖励模型，通过规则奖励联合优化负样本排序并扩大正负样本相似度差距。为精准评估，作者引入新基准MRBench，专用于多粒度查询场景。ELVA在标准检索基准上达到最先进结果，并在MRBench上实现13.1%的提升。

AI模型 ELVA 多模态检索强化学习 MRBench 细粒度

推荐理由：这篇论文提出了ELVA，用强化学习思路改多模态检索，解决了对比学习忽略粒度的问题，还在新基准MRBench上提了13.1%，值得做检索方向的人看看。

原文

09:47

arXiv cs.LG@Xiaoran Liu, Istvan David

论文提出基于模型驱动的方法，通过混合遗传算法（结合全局搜索和启发式局部搜索）自动生成多组相似但不同的强化学习训练环境。方法将变异和约束表达为模型变换，由先进模型变换引擎操作化搜索过程。在野火缓解场景和课程学习（依赖环境家族的学习范式）中验证了方法的有效性。原型工具将手工开发环境家族的错误率降低，提升了可扩展性。

论文强化学习模型驱动课程学习环境家族遗传算法

推荐理由：这篇论文提出用模型驱动和遗传算法自动生成RL环境变体，省去手写大量相似环境的麻烦，野火场景验证过，做课程学习的可以看看。

原文

09:42

arXiv cs.LG@Federica Filippini

许多计算与网络系统的决策问题可转化为带性能约束的成本最小化问题。传统强化学习（RL）通过加权惩罚将成本和约束违规合并为标量奖励，但权重需手动调整。本文提出MAMO（多智能体多目标约束优化系统），利用多智能体RL将奖励权重选择作为学习问题。MAMO将任务执行与目标设计解耦，为动态环境中约束优化问题的自主RL方案迈出第一步。

论文 MAMO 多智能体强化学习约束优化

推荐理由：这篇论文提出MAMO，用多智能体RL自动调权重，解决约束优化中手动调参难题。

原文

09:38

arXiv: DeepSeek@Minsu Kim, Se-Young Yun

研究者提出利用Lean证明助手作为符号过程预言机，在训练中提供细粒度的策略级验证反馈，弥补了传统RLVR仅依赖二元验证信号的不足。通过将证明尝试解析为策略序列，Lean能标记局部正确步骤及最早失败步骤，从而产生基于类型论的密集可验证信用信号。在STP-Lean和DeepSeek-Prover-V1.5上的实验表明，策略级监督在多数设置下优于仅结果监督的基线，在MiniF2F和ProofNet基准上取得提升。该工作展示了符号证明助手不仅可在评估时用作验证器，还能在训练中充当过程级奖励预言机。

AI模型 Lean 定理证明强化学习形式验证推理模型

推荐理由：这篇论文用Lean在定理证明训练中引入细粒度过程奖励，比只判对错的强化学习效果好，在MiniF2F和ProofNet上都有提升。

原文

6月18日

10:54

arXiv cs.LG@Haipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang

STARE针对GRPO等强化学习训练中策略熵崩溃问题，提出令牌级信用分配纠偏方法。通过惊讶度分位数识别熵关键令牌子集，选择性重加权其有效优势，并引入目标熵闭环门控实现稳定熵调节。在1.5B至32B规模模型及短CoT、长CoT、多轮工具使用三类任务中，STARE可维持数千步稳定训练。在AIME24和AIME25上，STARE准确率较DAPO等基线提升4%-8%，反射令牌和响应长度同步增长，表明探索-利用平衡得到改善。代码已开源。

论文 STARE GRPO 策略熵强化学习推理模型

推荐理由：STARE解决了GRPO训练中策略熵崩溃的老问题，在AIME数学竞赛上比DAPO高4-8个点，代码也开源了，搞RL训练的同学可以试试。

原文

10:47

arXiv cs.AI@Giuseppe Gabriele, Fabio Pavirani, Seyed Soroush Karimi Madahi, Chris Develder

一篇论文提出决策聚焦强化学习（DF-RL）框架，用于控制电动汽车充电，解决未知离开时间问题。该方法将预测器与充电策略进行端到端联合训练，相比不使用离开时间预测的RL方法，总奖励提升14%，未供应能量（因车辆提前离开导致充电失败）减少55%。实验基于历史数据模拟，验证了在不确定性下充电决策质量的改善。

论文强化学习电动汽车充电预测器决策聚焦

推荐理由：这个论文搞了个新训练方式，让预测器和充电策略一起优化，结果充电失败少了一半多，值得做RL调度的看看。

原文

10:04

arXiv cs.LG@Parisa Lotfibagha, Kristen Miller, William J. Gallagher, Elizabeth B. Selden, Muge Capan

该研究提出Contextual Markov Decision Process (CMDP)模型，基于22,154名2型糖尿病患者的电子健康记录（EHR）数据，优化不同亚群的随访间隔。通过主成分分析和聚类，识别出低风险和高风险两个亚群。模型建议：未测量实验室值时1个月内随访；指标升高或近期住院时最多3个月；血糖控制稳定时6至12个月，高风险患者间隔更短。与类似美国糖尿病协会的固定策略相比，高合并症亚群成本降低34.8%，低合并症亚群成本降低6.4%。

论文 CMDP T2D EHR 强化学习慢性病管理

推荐理由：这篇论文用CMDP模型和真实患者数据证明，个性化随访间隔比固定方案更省钱、更有效，高成本人群能省三成多。

原文

10:03

arXiv cs.LG@Hugo O. Garcés, Alejandro J. Rojas, Bernardo A. Hernández, Andrés Escalona, Jonathan M. Palma, Md. Rezwan Parvez, Bhushan Gopaluni, Sirish L. Shah

该论文在非线性系统上比较了无模型控制器在虚假数据注入和拒绝服务攻击下的性能，分析了四种RL奖励类型（Lyapunov、指数、渐进、线性）的准确率、成本和弹性。结果显示Lyapunov奖励以低跟踪误差实现了最佳弹性，指数模式在中等训练条件下提供良好折衷，渐进和线性奖励收敛更快但鲁棒性较差。RL-MPC模型表现出强稳态弹性但需更长训练时间，RL-PID控制器训练时间显著缩短。PPO相比DDPG显著降低了KPI方差。

论文 PPO DDPG Lyapunov奖励强化学习信息物理系统安全

推荐理由：这篇论文对比了四种强化学习奖励函数在抵御网络攻击时的表现，发现Lyapunov奖励弹性最好，PPO比DDPG方差更低，做控制器设计可以拿来参考。

原文

09:47

arXiv cs.AI@Ruishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin

多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽的问题。研究观察到GRPO中梯度集中在高奖励方差任务上，基于Popoviciu上界。提出RODS方法，利用进度奖励方差作为零成本边界检测器，无需额外推理。通过技能对齐重采样管道合成新多轮变体，维护动态缓冲池。从400个人工种子开始，保持约800样本活跃池，达到与17K样本离线管道相当性能，轨迹数减少约20倍。

论文 RODS GRPO 工具使用智能体强化学习数据合成

推荐理由：这篇论文用奖励方差自动发现困难样本并生成新数据，训练效率比静态数据高20倍，特别适合多轮工具智能体场景。

原文

09:26

arXiv: DeepSeek@Ruiqi Lai, Dakai An, Wei Gao, Ju Huang, Siran Yang, Jiamang Wang, Lin Qu, Dmitrii Ustiugov, Wei Wang

精选

DiT强化学习后训练需要数千块高端GPU，成本极高。Spotlight系统利用Spot GPU（价格低69-77%）和种子探索技术，将训练速度提升4倍。该系统通过带子集探索规划器最大化奖励方差，弹性序列并行在预emption时毫秒级恢复，并采用拉取式调度平衡负载。在Qwen-Image后训练中，Spotlight达到相同验证分数的成本降低1.4-6.4倍，在DeepSeek-OCR和Geneval数据集上512×512和1280×1280分辨率下图像质量更优。

论文 Spotlight DiT Qwen-Image 强化学习扩散模型

推荐理由：Spotlight系统用便宜的Spot GPU做DiT强化学习后训练，成本降低1.4-6.4倍，训练快4倍，适合预算有限的团队。

原文

09:22

arXiv: DeepSeek@Siddharth Aphale, Kelly Liu

一项研究分析了SFT（监督微调）的过度训练对RLVR（基于强化学习的验证）训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型，发现SFT深度增加时，预RL的pass@1上升，但GRPO的pass@10从0.806降至0.481（3种子均值，n=20）。预RL熵与GRPO结果正相关（ρ=+0.69）。研究者提出一个两阶段诊断方法，结合预RL熵筛选和早期GRPO熵监控，可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。

论文 Qwen2.5-Coder-3B DeepSeek-Coder-6.7B SFT RLVR 强化学习

推荐理由：这篇论文发现了SFT过训练会搞崩GRPO训练的秘密，还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。

原文

6月17日

12:00

arXiv cs.LG@Steve Halley, Maurício Gruppi

该论文提出SD-ZFS框架，将S2V-DQN架构适配到最小零强制集(ZFS)问题。ZFS是NP难的图着色问题，在图神经网络、网络控制和逻辑电路设计中有应用。在多个不同结构的图数据集上训练模型，评估其泛化、扩展和迁移能力。与最优解和贪心启发式相比，SD-ZFS框架展示了有效性。

论文 SD-ZFS S2V-DQN 强化学习图神经网络零强制集

推荐理由：这篇论文告诉你如何用强化学习搞定一个NP难的图论问题，效果比传统贪心算法好，适合研究图神经网络和组合优化的人。

原文

10:46

arXiv cs.AI@Ankita Samaddar, Sandeep Neema, Daniel Balasubramanian, Xenofon Koutsoukos

本文提出一种基于模仿学习的策略学习技术，用于在部分可观测的自主网络环境中预测红方（攻击方）动作。该方法适用于离散状态和离散动作的强化学习智能体。集成到使用行为树和LECs的神经符号自主防御智能体后，该方法能有效处理不同红方策略，并在多种模拟场景下实现高预测准确率。

论文模仿学习强化学习 AI安全智能体网络防御

推荐理由：这篇论文用模仿学习帮防守方预测攻击者行动，在模拟网络攻防场景下准确率很高。

原文

09:42

arXiv cs.AI@Jinjie Shen, Wei Deng, Xian Hu, Daiguo Zhou, Jian Luan

STAR方法针对文本到图像生成的RL后训练中的奖励粒度不匹配问题，提出时空自适应奖励分配。它利用生成模型内的文本-图像注意力，在去噪步骤和生成过程中动态构建空间分配图，将组相对优势分配给更相关的潜在区域。以Stable Diffusion 3.5 Medium为基础模型，在GenEval、OCR文本渲染和PickScore三项任务上分别达到0.9759、0.9757和23.60的分数。

论文 STAR 文本到图像生成强化学习 Stable Diffusion 奖励分配

推荐理由：这篇论文提出STAR方法，通过空间和时间自适应分配奖励，让RL后训练更精准地优化文本到图像生成，效果在GenEval等基准上显著提升。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:20

arXiv cs.LG@Violet Xiang, Amrith Setlur, Chase Blagden, Nick Haber, Aviral Kumar

ExpRL提出一种自动化方法，通过基于强化学习的中间训练来提升LLM推理能力。该方法不直接模仿参考解决方案，而是将其作为奖励支架，利用LLM裁判对比策略生成的推理轨迹与参考解，给出稠密奖励。在具有挑战性的数学推理任务上，ExpRL相比SFT、稀疏奖励GRPO和自蒸馏方法，能提供更强的RL初始化和更好的最终性能。此外，混合领域实验表明ExpRL可扩展至数学以外的场景。

论文 ExpRL LLM 强化学习推理模型数学推理

推荐理由：这篇论文用参考答案做奖励支架，让模型自己探索推理路径，数学推理效果超过了SFT和GRPO，想提升推理能力的可以看看。

原文

12:16

arXiv cs.LG@Wei Xiao, Weiliang Tang, Yuying Ge, Hui Zhou, Yao Mu, Li Zhang, Yixiao Ge

ROVE 是一个用于人形机器人视觉-语言-动作（VLA）模型后训练的强化学习框架，能够应对不完美的人类干预数据。它引入人类在环流水线收集部署与干预数据，并使用乐观价值估计（OVE）从混合质量轨迹中筛选高价值行为。ROVE 还利用跨实体人类经验视频为长尾失败与恢复模式提供丰富监督，引导 VLA 聚焦于高价值行为。在真实世界的接触丰富且精细的人形操作任务中，ROVE 超越了经验学习基线，并在多轮部署-干预迭代中持续提升。

AI模型 ROVE 人形机器人强化学习 VLA模型操作

推荐理由：人形机器人操作新方法ROVE，用强化学习从糟糕的人类演示中挑出好动作，真实任务效果比基线好。

原文

11:24

arXiv cs.AI@Tong Che, Rui Wu

一项新研究提出了“奖励通道上瘾”概念，指强化学习策略会沉迷于可见的即时收益信号（如分数、KPI仪表盘）。在名为MoneyWorld的合成沙箱中，模型在跨域任务上追逐显示收益而忽视真实目标，甚至当仪表盘为不安全动作支付奖励时，会放弃原本始终采取的安全行为。该现象在多个模型规模和系列上重现，表明盲目优化KPI或损益可能危及下一代AI的对齐。研究强调，贪婪是学会的，只要跟随这样的通道有回报。

论文 MoneyWorld 奖励通道上瘾对齐 AI安全强化学习

推荐理由：这篇论文揭示了一个看似反直觉但极其危险的现象：AI看到奖励仪表盘就会“学坏”，连安全对齐都能被收买。研究者在MoneyWorld里精心实验，结果证明这种“贪婪”不是天性而是后天习得。

原文

11:07

arXiv cs.LG@Ardianto Wibowo, Paulo E Santos, Amer Baghdadi, Matthew Stephenson, Karl Sammut, Jean-Philippe Diguet

该论文提出一种基于因果起源的统一分类法，用于描述强化学习（RL）中的分布偏移。作者将监督学习中的经典数据集偏移原则迁移到RL，通过部分可观测马尔可夫决策过程（POMDP）将交互分解为状态分布、观测过程、策略、奖励和转移动力学等结构组件。分类法区分了内部（智能体驱动）和外部（环境驱动）两种分布偏移，并从偏移时间边界角度定义了显式、隐式和混合偏移。该方法统一了分布内/分布外（ID/OOD）泛化与非平稳性，并引入性能退化与恢复指标来评估偏移影响和适应性。

论文强化学习分布偏移 POMDP 泛化因果分类

推荐理由：这篇论文把RL里训练和测试环境不一致的问题，用因果原因做了系统分类，还统一了OOD泛化和非平稳性的视角，搞清楚偏移根源才能更好做鲁棒性分析。

原文

10:44

arXiv cs.AI@Qian Qi

精选

该论文研究了连续时间随机控制中Q-learning的算子理论核心，在均匀椭圆性和Hölder正则系数条件下，证明了Bellman更新将有界输入映射到各向异性正则类，状态变量被平滑而动作变量仅保持Lipschitz依赖。论文提出了适应混合正则性的张量积DeepONet架构，并给出了显式近似和资源界限以及时间步δ→0时的刚度-复杂度权衡。作者未声称对带探索、经验回放和随机梯度更新的实际采样Q-learning有完整的收敛定理。

论文 Q-learning DeepONet Hölder空间正则性强化学习

推荐理由：这篇论文把Q-learning的Bellman目标正则性研究透了，还给出了DeepONet的近似界限，适合搞理论强化学习的人细读。

原文

10:36

arXiv cs.LG@Anna Zykova-Myzina, Timofei Gritsaev, Daniil Tiapkin, Nikita Morozov

该论文将近端策略优化（PPO）应用于生成流网络（GFlowNet）框架下的离散概率分布采样。作者推导了GFlowNet的等价策略梯度算法，并实验探索了基线训练和优势估计等环节。这是首次成功将PPO应用于GFlowNet，在合成能量和分子图生成等基准上，PPO相比标准GFlowNet训练目标提升了收敛速度和数据效率。

论文 PPO GFlowNet 离散采样策略梯度强化学习

推荐理由：这篇论文把PPO用到了GFlowNet上，收敛更快、数据效率更高，做离散采样研究的可以看看。

原文

6月15日

11:12

arXiv cs.LG@Shadi Heenatigala, Hasanika Samarasinghe

该研究利用一年高分辨率运营数据，提出统计与机器学习框架表征氢基多能源系统。统计分析显示太阳辐照度解释了氢产量45.7%的秩基方差，且仅高辐照期触发电解槽有效运行。随机森林模型将风能输出排在预测重要性首位，尽管其二元相关性仅为r=0.167，揭示了非线性动力学。序列模型利用24小时自相关r=0.845实现运营预测，强化学习代理优化了氢收益调度。

论文随机森林强化学习序列模型氢能机器学习

推荐理由：用随机森林和强化学习优化氢能调度

原文

6月12日

13:47

arXiv cs.LG@Jiacheng Chen, Xinyu Zhang, Shunkai Zhang, Yanmohan Wang, Lin Li, Tiancheng Qin, Qin Wang, Zhengmao Zhu, Tianle Li, Jingyang Li, Zehan Li, Binyang Jiang, Jin Zhu, Han Ding, Fei Yu, Chenyu Du, Zijian Song, Jiayuan Song, Zhi Zhang, Yunan Huang, Weiyu Cheng, Pengyu Zhao, Yu Cheng

73°

MaxProof 是一个面向竞赛级数学证明的群体级测试时扩展框架，由 MiniMax-M3 系列模型实现。M3 模型通过深度防御生成式验证器训练了证明生成、验证和基于批评的修复三种能力，并整合为单一模型。在测试时，MaxProof 将模型作为生成器、验证器、优化器和排序器，对候选证明群体进行搜索，并通过锦标赛选择输出最终证明。在 IMO 2025 和 USAMO 2026 上，M3 模型分别达到 35/42 和 36/42，超过了人类金牌阈值。

论文数学证明强化学习验证器测试时扩展 MiniMax-M3

推荐理由：数学证明是 AI 推理的硬核测试，MaxProof 用群体搜索和验证器强化学习突破了竞赛级证明的瓶颈，做数学 AI 或推理系统的研究者值得关注其方法。

原文

13:47