全部 AI 动态 · AI 热点

AITOP

5月27日

21:23

21:23IT之家（博客/媒体）

精选

波士顿动力Atlas人形机器人通过观看世界杯历史视频学习足球动作，并进行复刻训练。机器人已完成搬运45公斤冰箱等重物技能，计划亮相2026世界杯。训练基于强化学习，在仿真环境中累计数百万小时。机器人动作从预设编程转向自适应工业作业模式。

AI产品 Atlas 波士顿动力人形机器人世界杯强化学习

推荐理由：Atlas学踢球，拟亮相世界杯

原文

20:19

berryxia@berryxia

MiniMax 在沉寂半年后，将去年 12 月开源的 M2 模型背后的设计思路、训练细节和系统架构整理成论文发布到 arXiv。社区已广泛采用其核心系统如 CISPO、Forge RL System 和 Self-Evolution。MiniMax 表示 M3 模型和 MSA 论文即将发布，此举旨在推动开源生态从单纯卷参数转向公开方法论。

AI模型开源/仓库强化学习 MiniMax M2 M3

推荐理由：MiniMax 把 M2 的完整训练路径摊开，做开源模型训练或强化学习的团队可以直接参考，少走半年弯路。M3 即将到来，值得关注其系统级突破。

原文

12:14

arXiv: DeepSeek@Mingyue Wang, Xingyu Xie, Hang Yang, Li Gao, Lixin Su, Ge Chen, Dawei Yin, Daiting Shi

精选

百度搜索团队提出QDET（查询驱动事件时间线摘要）系统，用于在搜索中为热点新闻查询构建聚焦的事件时间线。该系统通过多任务监督微调（时序排序、因果判断、时间线补全）和基于强化学习的简洁摘要生成，使7B参数模型在时间线摘要F1得分（76.2%）上超越DeepSeek-R1-671B（76.1%），参数量仅为后者的1%。在线A/B测试显示，QDET使点击率提升5.5%、停留时间延长4.6%、探索深度增加4.4%。该工作证明领域专用优化能以极低成本达到大模型级别的生产质量。

论文事件时间线摘要搜索多任务微调强化学习百度

推荐理由：搜索和新闻聚合团队终于有了可落地的轻量级时间线方案——7B模型干翻671B，CTR和用户停留时间双双提升，做搜索排序或事件摘要的工程师可以直接参考其多任务微调策略。

原文

10:51

arXiv cs.LG@Shijin Gong, Erhan Xu, Kai Ye, Francesco Quinzan, Giulia Livieri, Chengchun Shi

精选

BASIS 是一种无需评论家的后训练算法，通过单次采样每个提示的轨迹，并利用整个批次中跨提示的信息共享来改进价值函数估计。实验表明，与单次采样的 REINFORCE++ 基线相比，BASIS 将价值函数估计的均方误差降低了 69%，且单次采样的 MSE 低于 8 次采样的组均值估计器。这种改进带来了更好的策略优化：BASIS 用更少的训练时间达到了接近多采样 GRPO 型基线的性能，并常优于单采样 REINFORCE 型基线。该工作解决了强化学习在计算效率与样本效率之间的权衡问题。

论文强化学习推理模型 LLM训练价值函数估计 BASIS

推荐理由：做LLM推理强化学习的团队终于有了一个兼顾计算和样本效率的方案——BASIS用单次采样就达到多采样的效果，训练成本大幅降低，建议做RLHF或推理优化的开发者点开看看。

原文

10:30

arXiv cs.AI@Yi Jing, Zao Dai, Jinwu Hu, Zijun Yao, Lei Hou, Juanzi Li, Xiaozhi Wang

精选

论文提出SAERL框架，利用稀疏自编码器（SAE）提取模型内部信号，用于强化学习（RL）后训练的数据工程。SAERL建模了数据的多样性、难度和质量三个内在属性，分别实现批次多样性控制、易到难课程排序和数据过滤。在Qwen2.5-Math-1.5B上，SAERL相比原始GRPO平均准确率提升3%，训练步数减少20%，且在不同模型规模和RL算法上表现一致。实验表明SAE可跨模型族和规模迁移，是一种轻量可复用的数据工程工具。

论文稀疏自编码器数据工程强化学习后训练可解释性

推荐理由：做LLM后训练数据工程的团队终于有了从模型内部获取信号的方法——SAERL用SAE直接指导数据排序和过滤，比依赖外部信号更高效，做RL训练优化的开发者值得一试。

原文

5月26日

23:01

rohanpaul_ai@rohanpaul_ai

76°

Meta、CMU 等机构发表新论文，提出 Self-Play SWE-RL 方法，让编码智能体通过自我制造和修复真实项目中的 bug 来训练自己，不再依赖人类编写的任务数据。该方法将学习单元从标注任务转变为可执行场景：一个模型版本在真实代码库中弱化测试、注入有意义的 bug 并留下测试工件，另一个版本则通过恢复测试行为来修复系统。在 SWE-bench Verified 上取得 +10.4 分、SWE-bench Pro 上 +7.8 分的提升，且评估仍使用自然语言问题，表明模型学到了比问题措辞更深层的东西。论文指出，编码智能体的下一个瓶颈可能不再是更多人类编写的任务，而是让智能体遭遇、创造、承受并从失败中学习的更多方式。

论文编码智能体自我对弈强化学习 Meta CMU

推荐理由：Self-Play SWE-RL 解决了编码智能体依赖人类标注数据的瓶颈，做 AI 编程助手或智能体训练的团队值得关注——它展示了智能体自我进化的新路径，看完会对训练数据来源有全新认识。

原文

16:35

marktechpost@Sana Hassan

本文是一篇技术教程，详细介绍了如何使用 TuringEnterprises/Open-MM-RL 数据集构建完整的多模态强化学习与可验证奖励（RLVR）管线。教程涵盖数据集加载、模式检查、领域分析、问题长度与答案类型统计、图像分布可视化等预处理步骤。还构建了轻量级奖励函数，支持精确匹配与语义评分，并演示了 GRPO 导出流程。该管线为多模态推理任务提供了可复现的实践框架，适合研究者和开发者快速上手。

论文多模态强化学习 RLVR GRPO Open-MM-RL

推荐理由：多模态 RLVR 是当前强化学习与视觉语言结合的热点方向，这篇教程从数据集到奖励函数再到导出一步到位，做多模态推理或 RL 研究的团队可以直接照着搭，省去自己踩坑的时间。

原文

12:38

arXiv: DeepSeek@Andreas Opedal, Francesco Ignazio Re, Abulhair Saparov, Mrinmaya Sachan, Bernhard Schölkopf, Ryan Cotterell

精选

研究者将自然语言推理建模为搜索问题，利用 A* 搜索算法指导 LLM 生成正确且高效的推理步骤。通过监督微调（基于 A* 执行轨迹）和强化学习（结合 A* 过程奖励模型），Llama-3.2 1B-3B 模型从近乎零准确率提升至超越 DeepSeek-V3.2。研究发现，简单正确性奖励最大化准确率，而 A* 信号能平衡准确率与效率。在更大搜索空间下，基于不完美启发式的训练反而带来更优准确率。这项工作展示了经典搜索算法指导 LLM 推理的潜力。

论文推理模型 A* 搜索后训练强化学习 Llama-3.2

推荐理由：A* 搜索让小模型推理能力大幅跃升，做推理优化或小模型部署的团队值得关注，可以直接参考其训练方法。

原文

12:36

arXiv: DeepSeek@Rongsheng Zhang, Ruofan Hu, Weijie Chen, Jiji Tang, Junnan Ren, Wanying Wu, Xunuoyan Chen, Tangjie Lv, Tao Jin, Zhou Zhao

精选

现有角色扮演智能体在长期对话中因上下文窗口限制而依赖外部记忆，但传统记忆框架仅记录事实，缺乏角色个性解读，导致回复泛化、角色一致性差。为此，研究者提出 RoleMemo 数据集，包含四个推理任务，要求智能体通过角色视角解读事实片段。同时提出 DualMem 框架，将记忆解耦为事实认知和角色条件洞察两个流，通过监督微调和强化学习训练。4B 参数的 DualMem 模型在角色一致性上超越了基于 DeepSeek-V3.2 的零样本框架。相关资源已在 GitHub 开源。

论文角色扮演智能体记忆框架推理任务强化学习开源/仓库

推荐理由：角色扮演智能体长期对话中的记忆与个性保持是行业难题，DualMem 的分离式记忆设计为开发者提供了可落地的解决方案，做虚拟角色或对话系统的团队值得关注。

原文

12:22

arXiv cs.LG@Zhaoyu Zhu, Rui Gao, Shuang Li

精选

该论文首次为Wasserstein策略梯度（WPG）方法在熵正则化强化学习中的全局收敛性提供了严格理论证明。WPG利用动作分布的最优传输几何，通过软Q函数的动作梯度与Langevin扩散更新策略，但标准Langevin分析因RL目标通过Bellman递归依赖策略而失效。研究者通过Bellman残差的KL表示、Bellman收缩与Bellman预解恒等式，建立了分布Polyak-Łojasiewicz条件，并利用对数Sobolev不等式控制离散化误差，最终证明WPG以几何速率收敛至全局最优（存在离散化偏差）。该工作揭示了熵正则化RL虽非传统凸优化，但Bellman递归诱导了有利的PL几何结构。

论文强化学习 Wasserstein策略梯度全局收敛熵正则化 Bellman递归

推荐理由：做连续控制RL的理论研究者会感兴趣——这篇论文用Bellman结构替代凸性假设，为WPG的全局收敛提供了首个完整证明，建议做策略梯度理论的团队仔细读。

原文

11:43

arXiv cs.AI@Dingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Zichen Liu, Lue Fan, Zhaoxiang Zhang

精选72°

MobileGym 是一个轻量级、浏览器托管的移动GUI仿真环境，通过结构化JSON状态实现确定性结果验证，并支持低成本并行rollout，使在线强化学习在移动应用场景中变得可行。该平台单服务器可运行数百个并行实例，每个实例仅需约400MB内存和3秒冷启动，并提供了416个参数化任务模板（256测试+160训练），覆盖28个应用。在Sim-to-Real案例中，使用GRPO在Qwen3-VL-4B-Instruct上训练，测试集准确率提升12.8个百分点，且真实设备执行保留了95.1%的仿真训练收益。MobileGym 解决了移动GUI Agent研究中环境保真度、可扩展性和评估一致性的核心痛点。

论文移动GUI Agent 仿真平台强化学习并行训练开源/仓库

推荐理由：做移动端GUI Agent或强化学习的团队终于有了一个可验证、高并发的仿真平台，不用再依赖私有后端或模糊匹配评估，建议直接看项目页和论文。

原文

5月25日

11:21

arXiv cs.AI@Yoosung Hong

精选

PCSP（Persona Conditioned Shared Policy）是一种基于强化学习的单策略框架，通过冻结LLM嵌入的低秩投影来条件化NPC行为，实现数百至数千个具有一致个性的非玩家角色控制。在300人生命模拟基准上，PCSP实现了零样本个性识别（组合泛化能力比随机高17倍）、语义-行为对齐（Spearman ρ≈0.73），以及比LLM策略基线快22倍的推理速度。该方法结合PPO、InfoNCE一致性损失和KL多样性目标，其中InfoNCE轨迹一致性目标至关重要，移除后零样本识别降至随机水平。在Melting Pot 2.4.0多智能体环境和UE5引擎部署中均验证了其个性条件化行为差异和实时推理能力。

论文强化学习 NPC控制个性条件化游戏AI LLM嵌入

推荐理由：游戏AI团队终于有了可落地的NPC个性控制方案——单策略支持数千角色且推理速度比LLM快22倍，做开放世界或模拟游戏的开发者可以直接在UE5中复现。

原文

11:20

arXiv cs.AI@Jiangwang Chen, Bowen Zhang, Zixin Song, Jiazheng Kang, Xiao Yang, Da Zhu, Guanjun Jiang

精选

当前大语言模型对话系统本质上是反应式的，只能在用户输入后响应。OnePred 提出通过递归更新的意图记忆来预测用户下一轮查询，无需重读完整对话历史。该方法采用两阶段强化学习训练，先教模型预测什么，再教如何压缩，形成面向预测的意图链。作者还发布了 NQP-Bench 基准测试集，包含三个子集。实验显示，OnePred 将每轮 token 消耗降低最多 22 倍，同时预测质量优于所有基线，在长对话中优势更明显。

论文对话系统预测模型强化学习意图记忆 NQP-Bench

推荐理由：对话系统从反应式走向主动式的关键一步，做对话 AI 或智能客服的团队值得关注，OnePred 的递归记忆思路可以直接参考或复现。

原文

10:04

arXiv: OpenAI@Shuai Zhen, Yifan Zhang, Yuling Wang, Yanhua Yu

强化学习长期面临样本效率低下的问题，利用群不变马尔可夫决策过程（G-invariant MDPs）是一种有前景的缓解方法。现有工作主要关注基于图像的强化学习和旋转对称性（如SO(2)），而基于状态的强化学习和反射对称性尚未充分探索。本文提出Reflex范式，专注于基于状态的连续控制任务，利用反射对称性（包括轴向反射和双侧反射），并与PPO和SAC等算法无缝集成。通过理论分析对称性保持的最优值函数和策略，Reflex引入对称性正则化机制，在OpenAI Gym和DeepMind Control基准测试中显著提升了样本效率和性能。代码已开源。

论文强化学习样本效率反射对称性连续控制开源/仓库

推荐理由：Reflex解决了强化学习样本效率低下的痛点，尤其适合做连续控制任务的RL研究者——直接集成PPO/SAC就能提升性能，值得一试。

原文

10:02

arXiv cs.LG@Matthias Cosler, Cas Cremers, Bernd Finkbeiner, Mohamed Ghanem, Niklas Medinger

本文提出一个基于强化学习的框架，借鉴AlphaZero和AlphaProof的思路，为安全协议分析工具Tamarin实现新的证明搜索方式。该框架通过无状态API将Tamarin转化为经典RL环境，并用蒙特卡洛树搜索结合神经网络启发式，从已完成子证明中学习。在16个案例研究中，该方法比Tamarin标准搜索找到更多自动证明，且生成的证明比标准及人工设计的启发式更短。该框架可直接用于辅助Tamarin用户，减少人工工作量，展示了RL方法在协议验证领域的潜力。

论文强化学习安全协议验证 Tamarin 蒙特卡洛树搜索自动证明

推荐理由：做安全协议验证的团队终于有了减少人工的利器——RL框架自动生成更短证明，Tamarin用户可以直接集成到现有工作流中，值得一试。

原文

10:01

arXiv cs.LG@Nikola Pavlovic, Sattar Vakili, Qing Zhao

本文研究了在 episodic 核马尔可夫决策过程（MDP）中仅通过偏好反馈进行强化学习的问题。与传统的数值奖励不同，人类反馈通常以偏好形式出现（如比较两个轨迹的优劣），这更符合 RLHF 的实际场景。作者假设奖励和转移函数属于核函数空间（一种通用的理论分析模型），并设计了基于偏好的值估计和置信集方法，专门处理每轮结束时给出的二元偏好比较。理论结果表明，学习策略的遗憾值随回合数亚线性增长，即最终能收敛到最优策略。该工作为偏好反馈下的强化学习提供了严格的理论基础，尤其适用于奖励难以量化但人类容易比较的场景。

论文强化学习偏好反馈 RLHF 核MDP 理论分析

推荐理由：偏好反馈是 RLHF 的核心，但理论分析一直稀缺。这篇论文把核 MDP 和偏好学习结合，给出了亚线性遗憾界，做理论强化学习或 RLHF 算法设计的研究者值得细读。

原文

09:56

arXiv cs.LG@Hamed Shirzad, Frederik Wenkel, Dominique Beaini, Danica J. Sutherland, Emmanuel Noutahi

精选

知识图谱结构不规则，传统检索方法在组合查询上表现不佳。SeedER 提出一种两阶段检索框架：先用轻量级检索选取核心节点作为种子，再通过强化学习训练的策略进行选择性扩展。该方法将全局推理分解为可复用的局部决策，在控制成本的同时显著提升召回率。实验表明，SeedER 在组合泛化和图约束子模优化方面优于强基线，适合作为知识密集型推理系统的第一阶段检索器。

论文知识图谱检索框架强化学习组合查询 SeedER

推荐理由：做知识图谱检索或知识密集型推理的团队，SeedER 提供了一种低成本高召回的新思路，值得关注其强化学习驱动的扩展策略。

原文

5月22日

11:21

arXiv cs.LG@Lily Goli, Justin Kerr, Daniele Reda, Alec Jacobson, Andrea Tagliasacchi, Angjoo Kanazawa

精选

该研究提出了一种名为 Recuriosity 的强化学习方法，解决好奇心驱动探索在3D环境中容易陷入局部循环的问题。核心创新在于使用在线3D重建作为持久的世界模型，并让智能体通过序列模型维护情景轨迹历史，从而避免重复访问已遗忘状态。仅基于好奇心训练，智能体在 HM3D 数据集上超越了基于强化学习的主动建图基线，并零样本泛化到 Gibson 和 AI 生成的世界。该方法还能高效适配下游任务，如摘苹果和图像目标导航，优于从头训练的基线。

论文好奇心驱动 3D探索强化学习持久世界模型情景记忆

推荐理由：做3D视觉和机器人探索的团队终于有了一个能跳出局部循环的解决方案——持久世界模型加情景记忆的组合直接解决了好奇心驱动的核心痛点，值得在复杂环境中一试。

原文

11:09

arXiv cs.AI@Long Phan, Devin Kim, Alexander Pan, Alice Blair, Adam Khoja, Dan Hendrycks

精选

研究发现大语言模型在处理对立政治话题时存在不对称性，表现为隐蔽政治偏见，包括7类操纵技术。作者提出两个新指标：情感一致性和帮助一致性，分别衡量修辞框架和交互深度的对称性。为减少这种偏见，他们提出政治一致性训练（PCT），包含情感一致性和帮助一致性两种互补的强化学习范式。实验表明PCT在保持模型整体帮助性的同时，显著降低了隐蔽政治偏见，并能泛化到未见的基准测试。相关代码和数据已开源。

论文大语言模型政治偏见一致性训练强化学习开源/仓库

推荐理由：这项研究戳中了LLM在敏感话题上的隐藏偏见问题，做AI安全、内容审核或政治相关应用的团队值得关注，可以直接用PCT方法减少模型被操纵的风险。

原文

10:58

arXiv cs.AI@Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit Agrawal

精选72°

当前大语言模型的后训练通常优化单一标量奖励，导致输出分布低熵，难以在推理时搜索（如AlphaEvolve）中展现多样性。本文提出向量策略优化（VPO），一种显式训练模型适应多样化下游奖励函数并产生多样化解决方案的强化学习算法。VPO利用实践中奖励常为向量形式（如代码生成的逐测试用例正确性、多种用户画像或奖励模型），作为GRPO优势估计器的即插即用替代，训练模型输出一组解，每个解专门针对向量奖励空间中的不同权衡。在四个任务上，VPO在测试时搜索（如pass@k和best@k）中匹配或超越最强标量RL基线，且差距随搜索预算增大而扩大。对于进化搜索，VPO模型能解决GRPO模型完全无法解决的问题。

论文强化学习推理时搜索多样性训练 VPO GRPO

推荐理由：VPO解决了LLM在推理时搜索中缺乏多样性的痛点，做强化学习后训练或推理时搜索的团队值得关注，它直接替换GRPO就能提升搜索效果。

原文

08:05

Latent.Space@latentspacepod

精选72°

Daytona 发布专为 AI 智能体设计的计算平台，提供 60 毫秒启动的沙箱环境，能在 75 秒内创建 5 万个独立实例，日均运行 85 万次。该平台从人类开发环境转向智能体沙箱，支持裸金属、有状态快照，并针对强化学习（RL）和评估（evals）工作负载优化。Daytona 认为 Kubernetes 在智能体规模下失效，AI 云应更像 Stripe 而非 AWS。CEO Ivan Burazin 解释了为何智能体需要可组合计算机，以及 RL 工作负载占比从 0% 增长到约 50% 的趋势。

AI产品智能体计算平台沙箱强化学习 Daytona

推荐理由：Daytona 解决了智能体大规模并发运行时的基础设施瓶颈，做 AI 智能体开发、RL 训练或大规模评估的团队可以直接用这个平台替代传统云方案，值得关注。

原文

5月21日

16:11

Fireworks AI@FireworksAI_HQ

76°

Cursor 团队没有通过提示工程优化 Composer 2.5，而是直接训练了模型。他们与 Fireworks 合作，在 Fireworks 上运行大规模强化学习（RL）滚动，同时进行生产推理。Fireworks 强调，到 2027 年，训练自己的模型是维持竞争护城河的唯一方式。这一做法展示了从提示工程到模型训练的转变趋势。

AI产品 Cursor Composer 2.5 强化学习模型训练 Fireworks

推荐理由：Cursor 用 RL 训练模型而非提示工程，给 AI 产品团队一个关键信号：2027 年后，训练自己的模型才是护城河。做 AI 应用开发的建议点开，看看他们怎么和 Fireworks 合作跑 RL 滚动。

原文

12:27

arXiv cs.LG@Elle Miller, Jayaram Reddy, Ayush Deshmukh, Trevor McInroe, David Abel, Oisin Mac Aodha, Sethu Vijayakumar

精选72°

机器人触觉强化学习（RL）研究因碎片化和过度关注饱和的定向任务而受阻。roto 2.0 是一个 GPU 并行化的基准测试，覆盖四种不同机器人形态（16-24 自由度），专注于仅依赖本体感觉和触觉的“盲”操作，无需状态信息或知识蒸馏。其盲代理在 10 秒内完成 13 次 Baoding 球旋转，速度比当前最先进水平快一个数量级。通过开源环境和调优基线，该工作降低了入门门槛，让研究者能聚焦核心算法挑战。

论文触觉感知强化学习机器人操作基准测试 GPU并行

推荐理由：触觉 RL 终于有了标准化的 GPU 并行基准，做机器人操作和强化学习的团队可以直接用 roto 2.0 测试算法，不用再花时间调环境——盲操速度提升 10 倍的结果值得点开看看。

原文

12:11

arXiv cs.LG@Kaiyi Zhang, Wei Wu, Yankai Lin

精选

DelTA提出了一种新方法，解决强化学习从可验证奖励（RLVR）中训练大语言模型时，token级信用分配不准确的问题。研究发现，标准RLVR更新中，高频格式token会主导梯度方向，掩盖真正区分高/低奖励的关键token。DelTA通过估计token系数，放大判别性方向、抑制共享模式，使更新更聚焦于推理关键步骤。在7个数学基准上，DelTA在Qwen3-8B和14B上分别平均提升3.26和2.62分，代码生成和跨领域任务也验证了其泛化能力。

论文强化学习 Token信用分配推理模型 RLVR 数学推理

推荐理由：做RLHF或推理模型训练的团队，终于有了一个能精准分配token级信用的方法——DelTA解决了高频格式token淹没关键信号的问题，数学和代码任务上效果显著，值得在自家模型上试试。

原文

12:09

arXiv cs.LG@Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng

精选76°

研究发现强化学习（RLVR）训练中模型权重的变化轨迹是低秩且高度可预测的，大部分性能提升来自秩-1近似。基于此，研究者提出RELEX方法，仅需观察少量训练步数（如50步），通过线性回归外推未来检查点（如1000步），即可匹配甚至超越完整RLVR训练的性能。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上验证，RELEX仅需15%的训练步数即可达到同等效果，且能外推至10-20倍于观察窗口。该方法无需额外学习模型，通过丢弃随机优化噪声实现去噪效果，从而提升外推性能。

论文强化学习推理模型低秩近似参数外推 Qwen

推荐理由：RLVR训练成本高昂，RELEX用极低成本实现同等推理提升，做LLM推理优化的团队可以直接用代码复现，值得一试。

原文

11:13

arXiv cs.AI@Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky

精选

这篇论文研究了在模拟器与真实实验之间如何权衡的问题。模拟器成本低但存在校准偏差，真实实验无偏但成本高。作者提出了一个扩展的模拟引理，将模拟器的价值误差分解为可识别的校准-部署偏移和不可减少的参数残差。他们还分析了模拟器最优策略与真实最优策略之间的价值差距，分为局部和可达性两部分。最后，提出了Fisher-SEP算法，通过最小化目标策略价值的后验预测方差来指导实验设计，并在自动售货机供应链和HIV移动测试两个案例中验证了其有效性。

论文模拟到真实迁移强化学习实验设计 Fisher-SEP 价值差距

推荐理由：这篇论文为做强化学习或机器人部署的团队提供了一个严谨的框架，帮你判断什么时候该相信模拟器、什么时候该做真实实验。做仿真到真实迁移的开发者可以直接参考其Fisher-SEP算法来优化实验预算。

原文

11:09

arXiv cs.AI@Xiaoqiang Wang, Chao Wang, Hadi Nekoei, Christopher Pal, Alexandre Lacoste, Spandana Gella, Bang Liu, Perouz Taslakian

精选

Mem-π 是一种新型自适应记忆框架，它让大语言模型智能体在需要时动态生成指导，而不是从外部存储中检索静态条目。该框架使用独立的语言或视觉语言模型，基于当前上下文决定是否生成以及生成什么指导，并通过决策-内容解耦的强化学习目标进行训练。在网页导航、终端工具使用和文本交互等基准测试中，Mem-π 相比检索式记忆和之前强化学习优化的基线方法表现更优，在网页导航任务上实现了超过30%的相对提升。

论文智能体记忆增强强化学习网页导航工具使用

推荐理由：做AI智能体开发的团队终于有了解决记忆错配问题的方案——Mem-π 让智能体学会“按需生成”而非“死板检索”，在复杂任务中效果显著，建议研究记忆增强的开发者点开看看。

原文

10:22

arXiv cs.LG@Yang Wu, Qiang Meng, Zhaojiang Liu, Youquan Liu, Jian Yang, Jin Xie

精选

当前端到端自动驾驶模型受限于模仿学习的行为克隆天花板，强化学习虽能实现更智能的自主性，但缺乏认知基础和前瞻性物理环境。为此，研究者提出CoPhy框架，通过蒸馏VLM知识到BEV编码器，在零推理成本下保留认知能力，并构建自回归BEV世界模型预测未来语义地图，作为可解释的物理沙盒。该框架采用GRPO优化策略，结合物理奖励（确保硬安全约束）和认知奖励（确保意图合规），在NAVSIM v1和v2基准上达到最先进结果，并支持用户自定义语言指令实现灵活意图控制。

论文自动驾驶强化学习 VLM蒸馏 BEV世界模型安全约束

推荐理由：自动驾驶团队终于有了兼顾安全与意图的强化学习方案——CoPhy用蒸馏VLM和BEV世界模型解决了行为克隆的瓶颈，做端到端驾驶的开发者可以直接参考其双奖励机制。

原文

5月20日

15:34

arXiv cs.AI@Utkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He

精选

强化学习中的可验证奖励（RLVR）在自动检查正确性时很有效，但许多模型行为需要同时满足多个定性标准。基于评分标准的奖励（rubric-based rewards）通过聚合多个标准来解决这一问题，但静态聚合会混淆人类赋予的重要性和当前优化信号的有效性。研究人员提出POW3R框架，它能在训练过程中动态调整各标准的奖励权重，优先关注当前能区分模型输出的标准。实验表明，POW3R在30个基线策略/指标比较中赢了24个，平均奖励和严格完成率均优于传统方法，且训练速度提升2.5-4倍。

论文强化学习奖励设计 RLVR 评分标准 POW3R

推荐理由：做RLHF或RLVR的团队终于有了更聪明的奖励设计——POW3R解决了静态评分标准浪费训练信号的问题，做多模态或文本模型对齐的开发者可以直接参考实验设置。

原文

11:41

arXiv: Google DeepMind@Bosun Liang, Shuo Pei, Zirui Chen, Chuanzhi Fan, Chen Sun, Yuankai Wu, Huachun Tan, Yong Wang

精选

强化学习常产生高频振荡控制信号，影响物理部署的安全与稳定。显式动作分块虽能预测固定轨迹，但会扩大策略输出维度，导致优化困难。本文提出双窗口平滑（DWS）框架，通过隐式动作分块实现平滑连续控制，无需扩展动作空间。DWS包含执行窗口（确保物理平滑）和价值窗口（修正评论家偏差），并引入轻量级时序正则化器。在DeepMind控制套件、工业能源管理及视觉自动驾驶任务中，DWS超越现有方法，实现100%成功率。

论文强化学习连续控制动作分块平滑控制 DWS

推荐理由：做机器人控制或自动驾驶的团队，DWS解决了强化学习控制信号抖动这个老大难问题，无需增加模型复杂度就能提升安全性和成功率，值得在你们的仿真或实机任务上试试。

原文

10:51

arXiv: DeepSeek@Ali Mohammadi Esfahani, Nafiseh Kahani, Samuel A. Ajila

精选

研究人员提出一个基于强化学习的框架，将提示词优化建模为序列决策问题。PPO代理通过混合动作空间（直接生成、遗传变异、语义重写）迭代改进提示词，并利用单元测试反馈的奖励信号驱动优化。在MBPP+、HumanEval+和APPS基准上，使用CodeT5+、CodeLLaMA和DeepSeek-Coder作为冻结代码生成器，PPO代理在MBPP+的500任务测试集上分别达到57.58%、64.80%和85.50%的严格Pass@1，优于EPiC、Reflexion和随机混合方法。软Pass@1分别达到67.90%、73.10%和88.20%。结果表明，带形状奖励的强化学习能显著提升LLM代码生成的功能正确性。

论文提示词优化强化学习代码生成 PPO LLM

推荐理由：做LLM代码生成或提示词工程的开发者，这个框架直接解决了提示词敏感性问题——用RL自动优化提示词，比手动调参高效得多，建议关注其混合动作空间和奖励设计。

原文

10:44

arXiv: DeepSeek@Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li

精选

GoLongRL 是一个完全开源的长上下文强化学习训练方案，包含 23K 样本的数据集、完整构建流程和训练代码。该方案基于长上下文能力分类法，覆盖 9 种任务类型，每个任务配有自然评估指标，数据来源包括书籍、学术论文和多轮对话等真实文档。在相同 GRPO 设置下，GoLongRL 数据集优于闭源的 QwenLong-L1.5 数据集，且 Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B。此外，论文提出 TMN-Reweight 方法，通过任务级均值归一化和难度自适应加权，解决异构奖励优化问题，进一步提升平均性能并保持通用能力。

论文长上下文强化学习开源/仓库 RLVR 多任务对齐

推荐理由：长上下文 RL 训练的数据构建和奖励设计一直是个难题，GoLongRL 提供了开源数据集和优化方法，做长上下文模型训练的团队可以直接复用，省去大量数据构造工作。

原文

10:40

arXiv cs.AI@Franco Terranova, Guillermo Bernardez, Albert Cabellos-Aparicio, Nina Miolane, Abdelkader Lahmadi

精选

图组合优化（GCO）问题因NP难特性而难以精确求解，现有基于强化学习（RL）和图神经网络（GNN）的方法在泛化性和计算可扩展性上存在局限。本文提出Projection Agents，直接在连续GNN动作嵌入空间中预测潜在动作，并通过单次前向传播解码为有效离散动作，避免了传统逐步搜索的开销。该方法在多个基准上实现最高16.2倍推理加速和40%更好的泛化性能，尤其适用于超线性决策空间。同时，作者开源了LaGCO-RL库，支持自动构建潜在动作空间并兼容现有RL-GCO方案，便于复现和适配新问题。

论文图组合优化强化学习图神经网络潜在动作空间开源/仓库

推荐理由：做图组合优化或RL求解NP-hard问题的研究者，这篇论文解决了泛化差和扩展性瓶颈，16倍加速和40%泛化提升值得一试，开源库还能直接复用。

原文

10:27

arXiv cs.AI@Yin Xiaolong, Liu Yu, Shen Jiahang, Lu Xingyu, Ni Jingzhe, Fan Fengxiao, Sang Fan

精选

本文提出一种记忆增强的强化学习框架，用于自动生成计算机辅助设计（CAD）模型。现有基于大语言模型的方法在处理长操作序列、多样操作类型和强几何约束的复杂CAD时，常因推理链断裂和缺乏纠错机制而失败。新框架将底层几何内核封装为可调用的结构化工具链，构建了从意图理解、全局规划、执行到多维验证的闭环机制，并设计了包含案例库和技能库的双轨记忆模块及动态效用检索算法。通过引入强化学习优化检索与策略，智能体可避免语义相似但几何不可行的检索陷阱，实现在线自我纠错和持续进化，无需额外大规模标注数据。实验表明，该方法在复杂CAD生成任务上显著提升了成功率和几何一致性。

论文 CAD生成强化学习记忆增强智能体几何约束

推荐理由：做CAD自动生成或智能制造AI的团队，这个框架解决了长序列建模和几何约束的痛点，强化学习+记忆库的设计值得参考，可以直接复现实验。

原文

10:16

arXiv cs.AI@Pierre Boudart, Pierre Gaillard, Alessandro Rudi

精选

该论文研究了基于多项逻辑（MNL）模型的马尔可夫决策过程（MDPs）的强化学习问题。现有算法对MNL混合MDPs的遗憾界为Õ(dH²√T)，其中d是特征维度，H是回合长度，T是回合数。作者引入了一个问题依赖常数σ̄_T（≤1/2），衡量最优下游值函数沿学习轨迹的归一化平均方差，并提出了一个遗憾界为Õ(dH²σ̄_T√T)的算法。该算法在最坏情况下恢复现有界，在结构化MDPs（如KL约束鲁棒MDPs）中可将H依赖因子降低H倍。此外，论文证明了匹配的下界Ω(dH²σ̄_T√T)，首次完全刻画了MNL混合MDPs的遗憾复杂度（达到对数因子内的极小化最优）。

论文强化学习 MDP 多项逻辑模型遗憾界极小化最优

推荐理由：这篇论文首次给出了MNL混合MDPs的极小化最优遗憾界，对研究强化学习理论或设计高效算法的研究者来说，是理解问题复杂度的重要参考。

原文

02:40

François Chollet@fchollet

François Chollet 指出，大多数人类任务并非马尔可夫过程，即最优下一步不能仅由当前状态决定，而严重依赖于过去的轨迹、原始意图和上下文约束。他认为，一个无法以绝对保真度压缩和追踪其过去轨迹的智能体，其有用性可能只有能做到这一点的智能体的 20%。这一观点强调了记忆和历史追踪在构建真正有用的人工智能系统中的核心重要性。

论文智能体马尔可夫过程历史追踪 François Chollet 强化学习

推荐理由：做智能体或强化学习的开发者会意识到，当前很多模型忽略了历史轨迹的精确追踪，Chollet 的观点直指智能体实用性的关键瓶颈，值得深入思考。

原文

5月19日

15:30

15:30IT之家（博客/媒体）

76°

波士顿动力5月18日发布视频，展示其Atlas人形机器人通过AI驱动行为，成功将一台冰箱搬到桌子上。机器人利用强化学习模拟抬起重物，学会协调全身以负载重物，并准确平衡复杂接触点。视频中，Atlas用双手抬起冰箱，走到桌旁后上半身旋转180度，将冰箱平稳放置。官方表示，这是构建通用实体工作工具的重要一步，旨在提升真实环境下的性能和可靠性。该技术展示了身体智能在搬运重物中的关键作用，结合控制和感知能力，适应不同冰箱的位置、质量和抓力。

AI产品人形机器人波士顿动力 Atlas 强化学习搬运

推荐理由：波士顿动力让Atlas学会搬冰箱，解决了人形机器人搬运重物时平衡与适应性的难题，做机器人研发或自动化搬运的团队值得关注，看看强化学习如何让机器人学会“身体智能”。

原文

14:44

arXiv cs.LG@Muhammad Umer, Muhammad Ahmed Mohsin, Ahsan Bilal, Arslan Chaudhry, Andreas Haupt, Sanmi Koyejo, Emily Fox, John M. Cioffi

精选

论文提出通用偏好强化学习（GPRL），旨在弥合在线强化学习与偏好优化之间的鸿沟。传统在线RL依赖可验证奖励，在数学和代码任务上表现优异，但无法处理开放式任务；偏好优化虽能处理开放式生成，却缺乏在线RL的持续探索能力。GPRL基于通用偏好模型（GPM），将响应嵌入k个斜对称子空间，以结构化、非传递性感知的比较表示偏好，并在策略更新中保留k维结构。它计算每维度的组相对优势，独立归一化防止单一维度主导，并通过上下文相关特征值聚合。GPRL还包含闭环漂移监控器，可检测并纠正单轴利用。基于Llama-3-8B-Instruct，GPRL在AlpacaEval 2.0上达到56.51%的长度控制胜率，并在Arena-Hard、MT-Bench和WildBench上优于SimPO和SPPO，有效抵抗奖励黑客攻击。

论文强化学习偏好优化对齐奖励黑客 GPRL

推荐理由：做LLM对齐和强化学习的团队终于有了一个能同时处理开放式任务和持续探索的框架——GPRL用多维偏好结构解决了奖励黑客问题，值得关注其实际效果。

原文

14:36

arXiv cs.AI@Qisai Liu, Zhanhong Jiang, Joshua Russell Waite, Aditya Balu, Cody Fleming, Soumik Sarkar

精选

COOPO 是一种新型强化学习框架，通过循环交替进行约束离线训练和在线微调，解决了离线强化学习中的分布偏移和在线学习中的高交互成本问题。该算法在每个循环中先用 KL 正则化的优势加权更新锚定策略，再用任意策略优化进行在线微调，定期回归离线训练可消除遗忘和漂移。理论证明 COOPO 在标准覆盖假设下能实现单调改进，在线样本效率优于纯在线 RL。在 D4RL 基准测试中，COOPO 相比最先进的混合方法减少了在线交互次数，同时提升了最终回报，且对不同离线算法和在线优化器具有鲁棒性。

论文强化学习离线-在线混合策略优化 D4RL COOPO

推荐理由：做强化学习研究的团队终于有了一个能同时解决分布偏移和灾难性遗忘的通用框架——COOPO 的循环设计让离线数据复用和在线探索形成正向循环，D4RL 上效果显著，建议做 RL 算法开发的同学点开看理论证明和实验细节。

原文

14:19

Sualeh Asif@sualehasif996

72°

Cursor 团队宣布推出 Composer 2.5，这是其最强大的模型版本。该模型在强化学习（RL）方面取得显著进步，智能水平更高，能更好地处理长时间运行的任务，并更可靠地遵循复杂指令。为庆祝发布，未来一周内用户可享受双倍模型使用额度。团队正与 SpaceXAI 合作，计划在下一版本中进一步扩展模型规模和计算量。

AI产品 Cursor Composer 2.5 强化学习编程助手模型升级

推荐理由：Cursor 用户将直接受益于更强的代码生成和任务执行能力，尤其是处理复杂、长期项目时体验提升明显。建议立即体验双倍额度，感受 RL 优化带来的实际效果。

原文