全部 AI 动态 · AI 热点

6月9日

10:28

arXiv: DeepSeek@Yishuo Cai, Xingyu Guo, Xuancheng Huang, Jinhua Du, Can Huang, Wenxuan Huang, Wenhan Ma, Yuyang Hu, Aohan Zeng, Jie Tang, Xu Sun

精选

论文提出MemoPilot，一种插件式记忆副驾驶，通过强化学习显式训练记忆更新过程，使冻结的LLM在连续交互中提升性能。该方法将记忆更新建模为多轮决策问题，采用多轮GRPO端到端优化，引入轮次奖励信号和上下文无关的轮级优势估计，实现更精细的信用分配和稳定训练。在多人石头剪刀布和有限注德州扑克两个测试环境中，MemoPilot的Elo评分分别达到1590和1762，超越所有基线记忆方法和包括DeepSeek-V3.2在内的闭源模型。这项工作解决了现有方法依赖手工设计提示规则、难以对齐记忆更新与长期目标的痛点。

论文 LLM智能体记忆更新强化学习测试时学习博弈

推荐理由：做LLM智能体长期部署和持续学习的团队可以关注——MemoPilot用强化学习自动优化记忆策略，比手工调提示更系统，在博弈场景中效果显著，值得在类似任务中尝试。

原文

10:26

arXiv cs.AI@Shumeng Yang, Yisu Liu, Jiayi Zheng, Zhaohui Yang, Linjing Li

精选

论文提出PAEC（位置感知熵校准）方法，解决强化学习（RLVR）中策略熵过早崩溃的问题。传统全局熵正则化对所有位置均匀增加熵，在长推理轨迹中效率低下。PAEC通过局部top-p熵和top-two候选竞争构建软掩码，对决策敏感位置施加基于锚点的下界惩罚，防止这些位置的熵崩溃。在五个数学推理基准测试中，PAEC相比强RLVR基线提升了多数投票的宏平均性能，尤其在AIME类任务上增益明显。结果表明，推理RL中的熵管理应聚焦于决策敏感位置的选择性探索，而非均匀随机注入。

论文强化学习推理模型熵校准数学推理 RLVR

推荐理由：做LLM推理强化学习的团队终于有了更精细的熵控制方案——PAEC在数学推理任务上直接提升多数投票性能，做RLVR的开发者值得关注这个位置感知的新思路。

原文

09:42

arXiv cs.AI@Bingjia Huang, Xiangyu Li, Xiang Wang, Liang Mi, Zixu Hao, Weijun Wang, Hao Wu, Kun Li, Yunxin Liu, Ting Cao

精选

生成式机器人策略在部署时可能突然失败，现有检测方法需要白盒访问或增加计算开销。ActProbe 提出仅从动作空间提取两个信号——连续动作块间的时间一致性误差（TCE）和当前动作块幅度（ACM），通过单次前向传播即可预测失败。该方法在多个基准测试中将失败检测的F1-时效性帕累托前沿平均提升12.7%，在未见任务上早期检测ROC-AUC领先9.0%。ActProbe 还能迁移到真实机器人拾取任务，将强化学习微调所需环境交互次数减少2.9倍。

论文机器人策略失败检测动作空间生成式策略强化学习

推荐理由：做机器人策略部署或安全检测的团队，终于有了一个不依赖模型内部状态、零运行时开销的失败预警方案——ActProbe 只需动作序列就能提前发现异常，建议做真实机器人实验的开发者直接试。

原文

00:54

Thomas Wolf@Thom_Wolf

精选76°

OpenEnv 宣布由包括 Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、NVIDIA、Mercor、Fleet AI 和 Hugging Face 在内的委员会共同协调，从个人项目转向社区治理。OpenEnv 定位为协议层而非奖励框架，旨在解耦模型、训练环境和奖励函数，解决开源智能体强化学习中“模型与训练框架耦合”的痛点。该协议层允许开发者自由组合模型、环境和训练器，类似 Claude Code 和 Codex 的封闭优化效果，但保持开源灵活性。项目早期阶段，欢迎社区参与测试和贡献。

AI产品智能体强化学习开源/仓库协议层 OpenEnv

推荐理由：OpenEnv 解决了开源智能体 RL 中模型与训练框架耦合的痛点，做智能体训练或强化学习的开发者可以直接用它作为协议层来自由组合工具，值得关注并尝试。

原文

6月7日

14:27

marktechpost@Asif Razzaq

精选

UIUC与Chroma联合推出Harness-1，一个20B参数的检索子智能体，通过强化学习在状态搜索框架中训练。该框架维护候选池、重要性标记的精选集、证据图和验证记录，策略决定搜索、筛选、验证和停止时机。在8个基准测试中，Harness-1平均精选召回率达0.730，领先下一名开源子智能体11.4个百分点，仅次于Opus-4.6。模型权重和框架代码已开源。

AI模型 Harness-1 检索子智能体强化学习状态搜索框架开源

推荐理由：Harness-1用强化学习解决了检索子智能体的搜索策略优化问题，做信息检索或RAG系统的开发者可以直接用开源代码复现，效果接近闭源最强模型。

原文

09:48

pandaily@contact@pandaily.com (Pandaily)

精选

小红书（RED）研究团队提出Evolving-RL框架，通过强化学习让AI智能体在经验中自主进化技能，无需额外技能提取模块。该框架使智能体能够动态调整行为策略，适应新任务和环境变化，显著提升在复杂场景下的表现。这一方法为构建更灵活、自适应的AI系统提供了新思路，尤其适用于需要持续学习的应用场景。

AI模型强化学习智能体技能进化小红书自适应系统

推荐理由：做AI智能体开发的团队终于有了让模型自主进化的方案——Evolving-RL省去了手动设计技能模块的麻烦，做强化学习或自适应系统的开发者值得深入研究。

原文

6月6日

04:20

Latent.Space@latentspacepod

强化学习环境初创公司层出不穷，但许多环境质量极差。来自Google DeepMind的专家Auriel Wright基于多年经验，揭示了RL环境中最常见的错误，包括不合理的奖励设计、不真实的物理模拟和缺乏可复现性。文章通过具体示例展示了如何识别和避免这些陷阱，帮助开发者构建更高质量的RL环境。对于RL研究者和工程师来说，这是一份实用的避坑指南。

AI模型强化学习环境设计最佳实践 Google DeepMind RL环境

推荐理由：RL环境质量直接影响模型训练效果，做强化学习的研究者和工程师可以对照检查自己的环境，避免常见的低级错误。

原文

6月5日

12:12

arXiv cs.AI@Mykyta Ielanskyi, Kajetan Schweighofer, Lukas Aichberger, Sepp Hochreiter

精选

当前推理语言模型通过强化学习微调时，常使用GRPO算法，但该算法面临延迟奖励问题——只能在完整思维链后给出奖励，导致高方差。RREDCoT提出一种无需额外生成的奖励再分配方法，利用模型自身对思维链中的关键片段进行信用分配，从而降低训练方差。实验表明，该方法在计算开销和效果上优于蒙特卡洛采样及其他归因方法。这项研究为提升推理模型训练效率提供了新思路，尤其适合长上下文场景。

论文推理模型强化学习奖励再分配思维链信用分配

推荐理由：做推理模型RL微调的团队终于有了降低训练方差的实际方案——RREDCoT用模型自身做信用分配，省去额外生成成本，长上下文场景下效果显著，值得关注。

原文

09:53

rohanpaul_ai@rohanpaul_ai

精选72°

Harness-1 提出一种新方法，将搜索智能体的记忆管理工作从模型中剥离，交给一个外部辅助系统（harness）处理。传统搜索智能体需要在有限的上下文窗口中同时进行搜索决策和记忆所有文档、线索、失败路径等，导致认知负担过重。Harness-1 让模型专注于语义选择（如搜索什么、验证什么），而 harness 负责可恢复状态（如候选池、证据链接、去重观察等）。实验表明，一个 20B 模型通过减少内部记忆负担，在搜索任务上表现显著提升，且在未见过的基准测试上增益更大，说明模型学到了可复用的搜索策略而非领域记忆。

论文搜索智能体记忆外置强化学习 Harness-1 20B模型

推荐理由：做搜索智能体或 RAG 系统的开发者，Harness-1 的思路能帮你解决模型上下文窗口瓶颈，让智能体在复杂搜索中更高效，值得参考其状态外置设计。

原文

6月4日

11:01

arXiv cs.AI@Rishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad

72°

当前主流的强化学习从可验证奖励（RLVR）方法仅使用最终答案正确与否的单一比特信号，忽略了执行轨迹、工具输出、专家修正和模型自评估等丰富反馈。研究者提出DistIL方法，基于分布化DAgger算法，通过前向交叉熵目标利用这些反馈，实现序列级别的信用分配。理论证明该方法能保证单调策略改进和遗憾界，而基于反向KL或JS散度的自蒸馏目标则无法保证。实验表明，DistIL在科学推理、编程和数学问题求解等多个领域优于RLVR和自蒸馏基线。

论文强化学习 DAgger 丰富反馈推理模型信用分配

推荐理由：DistIL解决了RLVR只利用最终答案信号的局限，让模型能从执行过程和专家反馈中学习，做推理模型和编程助手的团队值得关注这一新范式。

原文

6月3日

10:47

arXiv cs.AI@Rongzhi Zhang, Rui Feng, Zhihan Zhang, Jingfeng Yang, Qingyu Yin, Xin Liu, Zixuan Zhang, Priyanka Nigam, Bing Yin, Tuo Zhao, Chao Zhang

精选

现有基于评分标准的强化学习（RL）方法将查询分布视为固定，导致开放查询产生模糊评分标准，而狭窄查询又引入无法验证的参考，使训练失去奖励信号。QUBRIC框架通过教师提取关键点将开放查询重写为可评估的场景问题，并利用对比评分生成和可学习性过滤，保留信息丰富的查询-评分对用于GRPO训练。在ArenaHard上，QUBRIC相比SFT基线提升5.5分，且仅用指令跟随数据训练后，在三个未见基准（法律、道德、叙事推理）上平均提升6.3分。这表明联合设计查询与评分标准可使基于评分标准的RL成为严格可验证任务之外的有效补充。

论文强化学习评分标准查询设计 GRPO 推理模型

推荐理由：QUBRIC解决了RL在非可验证任务中的核心瓶颈——查询与评分标准不匹配，做RL训练或AI对齐的团队可以直接参考其方法，提升模型在开放推理任务上的表现。

原文

10:45

arXiv cs.LG@Tao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang, Yihao Liu, Jingwei Ni, Jiaqi Guo, Mengyu Zhou, Kai Tang, Junling Liu, Qinliang Su, Xiaoxi Jiang, Guanjun Jiang

精选

当前大语言模型后训练中的奖励模型依赖规则验证器、真实参考、程序检查表等异构标准，缺乏统一机制。Skill-RM 将奖励建模重构为可复用的“奖励评估技能”执行过程，通过智能体动态选择和聚合证据，实现一致且透明的评估。在奖励基准和下游任务（如 Best-of-N 选择和强化学习）中，Skill-RM 持续超越传统基线。该方法为奖励建模提供了统一解决方案，并通过策略性证据编排取得更优性能。代码已开源。

论文奖励模型智能体 LLM后训练强化学习开源/仓库

推荐理由：做 LLM 后训练（RFT/RL）的团队终于有了统一的奖励评估框架，不用再为不同任务拼凑规则和检查表了——Skill-RM 用智能体思路动态整合证据，效果还更好，做对齐和强化学习的建议直接看代码。

原文

10:45

arXiv cs.LG@Ali Behrouz, Farnoosh Hashemi, Vahab Mirrokni

精选

受人类学习过程启发，研究者提出了一种名为“睡眠”的范式，让大语言模型能够持续学习，将短期脆弱记忆蒸馏为稳定的长期知识。该范式包含两个阶段：记忆巩固（通过知识播种将小模型记忆蒸馏到大模型）和梦境（模型通过强化学习生成合成数据自我改进）。实验证明，该方法在长时任务、持续学习、知识整合和少样本泛化上效果显著。这项工作解决了LLM无法持续更新长期参数的核心痛点，为模型终身学习提供了新思路。

论文持续学习记忆巩固蒸馏强化学习 LLM

推荐理由：做持续学习和模型终身优化的研究者值得关注——它用“睡眠”机制解决了LLM记忆遗忘问题，比传统微调更接近人类学习方式，看完会有启发。

原文

10:26

arXiv cs.AI@Roohan Ahmed Khan, Yasheerah Yaqoot, Muhammad Ahsan Mustafa, Dzmitry Tsetserukou

AgenticRL 是一种结合多模态 GPT 智能体的强化学习框架，专为无人机视觉导航任务设计。它通过 GPT 智能体自动生成奖励函数、训练策略并自我评估，形成闭环自优化流程。在多种导航任务（如穿越门、避障、轨迹跟踪）中，闭环优化使策略性能提升71%。该框架还支持从仿真到真实环境的迁移，真实世界成功率达91%，仿真到真实准确率94%。这大幅减少了传统强化学习中对人工设计奖励和反复调参的依赖。

论文强化学习无人机导航多模态GPT 奖励函数设计仿真到真实迁移

推荐理由：做无人机导航或机器人强化学习的团队，终于有了能自动设计奖励函数并自我优化的框架，省去大量手动调参时间，建议直接看实验部分。

原文

10:25

arXiv cs.AI@Anthony GX-Chen, Ankit Anand, Gheorghe Comanici, Zaheer Abbas, Eser Aygün, David Smalling, Shibl Mourad, Doina Precup, André Barreto, Mark Rowland

经典强化学习追求确定性策略以最大化标量奖励期望，但在语言模型微调或科学发现等现代应用中，多样性至关重要。现有方法如熵正则化或多样性奖励常需脆弱权衡，牺牲性能换取随机性。本文提出将奖励函数视为分布而非标量，通过非线性的动作集目标函数，使校准的行为多样性自然涌现，且不牺牲期望奖励。在上下文赌博机设定下，推导了原则性的梯度估计器，证明该框架泛化了策略梯度与动作集方法。实验表明，该方法为需要行为广度的复杂RL任务提供了稳健的理论替代方案。

论文强化学习多样性奖励不确定性策略梯度上下文赌博机

推荐理由：做RL研究或语言模型微调的团队，如果正为多样性-性能权衡头疼，这篇论文给出了一个理论干净的新框架——把奖励不确定性当作多样性来源，不用额外调参。值得细读。

原文

10:17

arXiv cs.AI@Senjie Jin, Peixin Wang, Boyang Liu, Xiaoran Fan, Shuo Li, Zhiheng Xi, Jiazheng Zhang, Yuhao Zhou, Tao Gui, Qi Zhang, Xuanjing Huang

精选

研究发现，在视觉推理任务中，仅依赖令牌级熵进行强化学习（RLVR）会失效，因为视觉敏感但熵低的令牌被忽略。现有多模态RL方法要么缺乏系统视觉度量，要么忽视熵主要驱动语义探索。为此，研究者提出VEPO框架，通过视觉敏感性与令牌熵的乘法耦合，将梯度信用分配给同时具备视觉基础和高信息量的令牌。实验表明，VEPO在7B和3B规模上分别比熵基线提升2.28和3.15个百分点，消融实验验证了方法的有效性。

论文强化学习视觉推理令牌选择多模态 VEPO

推荐理由：视觉推理强化学习一直缺乏有效的信用分配机制，VEPO解决了这个痛点——做多模态RL的团队可以直接参考这个框架，在视觉-语义交叉场景中提升模型表现。

原文

05:02

rohanpaul_ai@rohanpaul_ai

88°

微软发布了 MAI-Thinking-1，这是其自研推理模型系列的首个成果。该模型采用 1T 总参数的混合专家架构，每次推理仅激活 35B 参数，在 AIME 2025 上达到 97.0%，LiveCodeBench v6 上 87.7%，SWE-Bench Pro 上 52.8%。微软称其训练流程为“爬山机器”，通过持续优化数据、训练、奖励和安全测试形成闭环。预训练基于 30T 主要人工生成 token，避免使用第三方模型蒸馏，随后通过强化学习提升数学、编程、工具使用和安全能力。这标志着微软在推理模型领域建立了完整的自研能力。

AI模型推理模型微软 MAI-Thinking-1 混合专家模型强化学习

推荐理由：微软用自研数据+强化学习打造了强推理模型，做 AI 推理或模型训练的团队值得关注其“爬山机器”方法论，尤其是 35B 激活参数就能达到接近顶尖水平的效率。

原文

02:32

Harrison Chase@hwchase17

验证器对于扩展评估和强化学习至关重要，但成本高昂。Harvey 团队与 LangChain 合作，探索如何降低验证器成本。该研究由 Vtrivedy10、jakebroekhuizen 等人主导，旨在解决验证器在规模化应用中的经济瓶颈。这项工作可能为 AI 评估和 RL 训练提供更经济的方案。

AI模型验证器评估强化学习成本优化 LangChain

推荐理由：做 AI 评估或强化学习的团队，验证器成本一直是个头疼问题——Harvey 和 LangChain 的这项研究直接给出了降本思路，值得关注。

原文

6月2日

12:19

arXiv: OpenAI@Hikmet Simsir, Ozgur S. Oguz

精选

论文提出 Lagrangian Perturbation Diffusion Steering (LP-DS)，一种轻量级方法，通过优化冻结生成式策略的噪声空间扰动来提升性能，无需更新大型动作解码器。LP-DS 使用拉格朗日信任域目标，在提升下游价值的同时约束与潜在先验的偏差。在 RoboMimic、OpenAI Gym 和 Adroit 等基准测试中，LP-DS 在样本效率、成功率和回报上均有提升，回报比先前基线提高最多 25%。该方法还适用于流匹配骨干、大型视觉-语言-动作模型，并在真实 Franka 机器人上验证了有效性。

论文扩散模型强化学习机器人操控策略微调信任域优化

推荐理由：做机器人操控或强化学习的团队，终于有了一个不更新大模型也能微调扩散策略的轻量方案——LP-DS 在保持动作多样性的同时提升回报，建议试试看能否解决你的分布偏移问题。

原文

12:06

arXiv: Anthropic@Zelin He, Haotian Lin, Boran Han, Wei Zhu, Haoyang Fang, Bernie Wang, Xuan Zhu, Runze Li, Matthew Reimherr

ReSkill 是一种新型的智能体强化学习框架，旨在解决现有方法中技能创建与策略优化脱节的问题。它受 Anthropic 的 Skill Creator 启发，将技能创建嵌入到策略学习循环中，通过断言驱动的技能创建器、组内采样和自适应 Thompson 采样三个机制，实现技能与策略的协同进化。实验表明，ReSkill 在多个领域优于现有方法，尤其在未见任务上表现突出，能自动创建、测试、优化和淘汰技能。该工作为构建可泛化的智能体系统提供了新思路。

论文智能体强化学习技能学习策略优化 ReSkill

推荐理由：做智能体强化学习的团队终于有了一个能自动积累可复用策略的框架——ReSkill 让技能创建和策略优化不再打架，直接提升泛化能力，做 RL 和 LLM 智能体的研究者值得细读。

原文

12:05

arXiv cs.LG@Ning Lu, Baijiong Lin, Shengcai Liu, Jiahao Wu, Haoze Lv, Yanbin Wei, Lingting Zhu, Shengju Qian, Xin Wang, Ying-Cong Chen, Qi Wang, Ke Tang

论文提出 PaW 框架，在强化学习训练语言智能体时，利用策略 rollout 中的动作-观测对作为世界模型监督信号，无需额外模拟器或推理计算。通过动作熵筛选数据、噪声容忍损失和自适应损失平衡三个组件，PaW 在多个智能体任务基准上显著优于纯 RL 基线。该方法解决了 RL 缺乏环境反馈监督的问题，让智能体不仅知道“做什么能得高分”，还理解“动作对环境的影响”。实验表明标准 RL rollout 即可提供有效的世界模型训练信号，降低了世界模型的应用门槛。

论文强化学习世界模型语言智能体 PaW 共训练

推荐理由：做语言智能体强化学习的团队，可以用 PaW 在现有 RL 流程中零成本加入世界模型监督，提升智能体对环境的理解能力，值得在项目中尝试。

原文

12:04

arXiv cs.LG@Lei Yang, Siyu Ding, Deyi Xiong

该研究揭示了多域强化学习（RL）中一个关键问题：在数学推理、代码生成等单一领域训练会损害其他领域性能。现有解释（如灾难性遗忘或全局梯度冲突）不完整，因为即使全模型梯度几乎正交时，干扰仍会发生。研究发现，单域RL产生稀疏、小幅度的参数编辑，不同领域共享大量活跃计算路径，更新方向决定协同或冲突。基于局部扰动模型，作者证明后期训练主要通过二阶损伤项损害早期领域，该损伤集中在低维共享冲突子空间。通过短暂领域刷新（如代码→数学→问答→创意写作后重新训练数学），数学性能从57.66恢复至66.04，且其他领域性能保持良好，平均得分达66.39。此外，无训练的回滚方法也部分恢复了数学性能，提供了局部损伤的直接证据。

论文强化学习多域训练干扰恢复局部扰动 LLM后训练

推荐理由：该理论解释了多域RL训练中性能下降的机制，并提出了有效的恢复方法，对从事LLM后训练和多任务学习的开发者有直接指导意义，建议关注其刷新策略。

原文

12:04

arXiv cs.AI@Deokhyung Kang, Hyounghun Kim, Gary Geunbae Lee

推理语言模型在复杂推理任务上表现优异，但在非英语输入上仍存在多语言推理差距，主要原因是语言理解失败。英语翻译可以缓解这一问题，但并非所有输入都需要翻译。为此，研究者提出 Luar（语言理解边界感知强化学习框架），训练模型在直接理解不可靠时选择性调用翻译。在多项多语言推理基准测试中，Luar 优于标准 GRPO 等方法，尤其在低资源语言上提升显著。该框架能避免不必要的翻译，并泛化到未见过的低资源语言。项目代码已开源。

论文推理模型多语言强化学习翻译开源/仓库

推荐理由：多语言推理场景下，翻译不是越多越好——Luar 教会模型在「不懂的时候才翻」，做多语言 NLP 或低资源语言应用的团队可以直接用这个框架来提升推理效率。

原文

11:12

arXiv cs.AI@Lichao Wang, Zhaoxing Ren, Tianzhuo Yang, Jiaming Ji, Chi Harold Liu, Yaodong Yang, Juntao Dai

SafeMCP 是一个服务器端防御插件，针对 LLM Agent 使用 MCP 协议时因动作空间扩大带来的安全风险。它通过内部世界模型进行前瞻推理，实现两层防御：主动工具过滤限制危险权限扩展，以及即时干预作为故障安全机制。训练采用三阶段流程：环境动态基础、安全策略初始化和带双重可验证奖励的强化学习。在 PowerSeeking Bench、ToolEmu 和 AgentHarm 上的实验表明，SafeMCP 能在降低风险的同时保持 Agent 的实用性。

论文 MCP/工具 LLM Agent 安全防御前瞻推理强化学习

推荐理由：做 LLM Agent 安全防护的团队终于有了一个可落地的方案——SafeMCP 在服务器端用前瞻推理主动过滤危险工具调用，比事后审计更有效，建议关注其开源实现。

原文

11:09

arXiv cs.AI@Yogesh Kumar Meena, Saurabh Agarwal, K. V. Arya

研究人员提出RL-ACRGNet，一种结合预训练DenseNet编码器和多级LSTM解码器的改进编码器-解码器模型，用于自动生成胸部X光报告。该模型在离策略强化学习框架下，通过双网络结构和基于度量的奖励机制优化视觉-语义嵌入，在IU-Xray数据集上BLEU-4、METEOR和ROUGE-L指标分别提升0.47%、0.17%和0.518%，并在MIMIC-CXR数据集上验证了其泛化能力。这项研究旨在解决手动生成放射报告耗时且不一致的问题，推动医学影像AI的自动化诊断流程。

论文医学影像强化学习报告生成 DenseNet LSTM

推荐理由：医学影像团队终于有了更精准的自动报告生成方案——RL-ACRGNet通过强化学习优化视觉语义对齐，做医疗AI的开发者可以直接参考其双网络奖励机制来提升模型临床相关性。

原文

11:02

11:02IT之家（博客/媒体）

精选72°

图灵奖得主理查德·萨顿指出，普通生成式AI（如大语言模型）缺乏自我评估与持续筛选能力，因此难以完成真正的科学发现。他认为科学发现需要变异、评估和选择性保留三步，而生成式AI只擅长生成变体，缺少测试环节来筛选更好方案。萨顿列举AlphaGo、AlphaFold等系统作为正面案例，这些系统都有评估闭环。他还批评AI行业过度押注更大语言模型，更看好能与环境互动、从经验中学习的AI智能体。

行业生成式AI 科学发现强化学习评估闭环理查德·萨顿

推荐理由：萨顿点出了生成式AI在科学发现上的根本局限，做AI研究和科学发现的团队值得反思：你的系统有评估闭环吗？

原文

10:01

AK@_akhaliq

精选

GrepSeek 是一种新型搜索智能体训练方法，旨在让 AI 直接与语料库进行交互，而非依赖传统检索管道。它通过强化学习训练模型学会自主搜索、定位和提取信息，显著提升在复杂查询中的准确性和效率。该方法解决了现有搜索系统在长尾、多步推理任务中的局限性，为信息检索和问答系统提供了新范式。实验表明，GrepSeek 在多个基准测试上优于传统检索增强生成（RAG）方法。

论文搜索智能体强化学习语料库交互信息检索 GrepSeek

推荐理由：做搜索或问答系统的开发者值得关注——GrepSeek 让 AI 学会自己翻语料库，比 RAG 更灵活，建议看看它怎么绕过传统检索瓶颈。

原文

09:42

arXiv cs.AI@Yujiao Chen

该研究在马尔可夫决策过程（MDP）中引入吸收灾难态，发现即使风险中性且无效用曲率，标准Bellman最优性仍会产生前景理论三大特征：S型价值函数（近灾难凸、远场凹）、内生损失厌恶系数λ*>1、以及反射效应策略反转。在495种配置下，正漂移（增长）场景中靠近灾难态时最优策略选择安全动作，负漂移（衰退）场景中则选择冒险动作。研究推导出渐近损失厌恶平台λ的闭式表达式，仅依赖胜率p、收益不对称比r和折扣因子β，与数值解拟合R²=0.999。该机制无需不对称收益，且现象在表格Q学习和随机转移下稳健存在。

论文强化学习前景理论灾难态风险决策 Bellman最优性

推荐理由：这篇论文揭示了灾难态本身就能产生前景理论行为，对做强化学习安全控制、风险决策建模的研究者很有启发，建议读一下推导和实验设计。

原文

6月1日

10:48

arXiv cs.AI@Zaid Khan, Justin Chih-Yao Chen, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal

精选

该论文研究如何利用大语言模型（LLM）作为 GPU 内核性能的预测器，以替代昂贵的实际硬件测量。在深度学习内核优化中，每次评估都需要编译和多次执行，成本高昂，而 LLM 驱动的搜索扩展后，设备端评估成为瓶颈。作者提出 LLM 应具备准确性和选择性——知道何时可能出错并转交 GPU。实验表明，LLM 能准确预测相对性能，通过强化学习可提升精度和置信度校准。在内核搜索中，替代模型在相同 GPU 预算下可评估数倍候选，从而找到更快的内核。这表明 LLM 可充当 GPU 的虚拟模型，而不仅是内核生成器。

论文 LLM GPU 内核优化性能预测强化学习替代模型

推荐理由：这篇论文解决了 GPU 内核优化中评估成本高的痛点，做高性能计算或深度学习框架优化的开发者可以直接参考其方法——用 LLM 替代部分硬件测量，在相同预算下找到更优内核。

原文

10:23

arXiv cs.LG@Zhikun Xu, Yu Feng, Jacob Dineen, Taiwei Shi, Jieyu Zhao, Ben Zhou

ReuseRL 是一种基于最小描述长度（MDL）原则的强化学习方法，旨在解决大语言模型智能体在强化学习中学习到脆弱、任务特定捷径的问题。该方法从成功轨迹中提取可复用的抽象技能字典，并通过分割成本惩罚编码效率低下的行为，从而鼓励智能体学习更通用、可压缩的行为模式。论文证明了该压缩惩罚的 PAC-Bayes 泛化界，并在 ALFWorld、TextWorld-Cooking 和 Countdown-Stepwise 等基准上，ReuseRL 在分布内和分布外任务上均优于 vanilla GRPO 和强基线方法。这项工作为提升智能体泛化能力提供了新思路，尤其适合需要跨任务迁移的 RL 场景。

论文强化学习智能体技能复用泛化 MDL

推荐理由：ReuseRL 用 MDL 原则解决了智能体 RL 泛化差的痛点，做多任务智能体训练的团队可以直接参考其技能复用机制，提升模型在未见任务上的表现。

原文

10:11

arXiv cs.LG@Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li

精选

LongTraceRL 是一种新方法，旨在解决大语言模型在长上下文推理中难以定位和整合关键信息的问题。它通过知识图谱随机游走生成多跳问题，并利用搜索智能体的轨迹构建高混淆度的干扰文档，使训练上下文更具挑战性。同时，它提出了一种基于实体级过程监督的“评分奖励”，只对正确答案的推理过程进行细粒度评估，避免奖励作弊。在 4B 到 30B 的多个推理模型上，LongTraceRL 在五个长上下文基准测试中持续优于强基线，并促进了基于证据的推理。代码、数据集和模型已开源。

论文长上下文推理强化学习搜索智能体奖励设计开源/仓库

推荐理由：长上下文推理是当前大模型的瓶颈，LongTraceRL 用搜索轨迹和细粒度奖励解决了干扰项和奖励稀疏的问题，做推理模型训练或长文档理解的团队可以直接用开源代码复现。

原文

5月31日

10:19

marktechpost@Michal Sutter

精选72°

Trajectory 与 UC Berkeley Sky Lab 和 Anyscale 合作，构建了一个用于持续学习的并发多 LoRA 训练栈。该方案将每个强化学习实验映射到始终热运行的引擎上的专用 LoRA 适配器，相比单租户基线实现了 2.81 倍的端到端实验吞吐量提升，且无奖励回归。代码已在 NovaSky-AI/SkyRL 开源。这一进展解决了持续学习中多实验并行效率低下的问题，对强化学习研究和工程团队有直接价值。

AI模型 LoRA 持续学习强化学习开源/仓库训练栈

推荐理由：做强化学习持续训练的团队终于有了高效的并行方案——2.81 倍吞吐量提升且不损失奖励，直接开源可用，建议试试。

原文

5月30日

16:47

Stanford AI Lab@StanfordAILab

精选

斯坦福SAIL与ETH合作研究表明，在极难任务中，使用丰富反馈的强化学习（RL）显著优于传统标量奖励方法。该研究通过对比实验，验证了多维度反馈信号能更有效地引导智能体学习复杂策略。这一发现对AI训练范式有重要启示，尤其适用于需要精细控制的机器人、游戏AI等领域。研究团队已公开部分代码和实验细节，供社区复现和进一步探索。

论文强化学习反馈机制斯坦福SAIL ETH 复杂任务

推荐理由：这项研究为强化学习训练提供了新思路，做RL或机器人控制的开发者值得关注——丰富反馈可能成为突破复杂任务瓶颈的关键。

原文

16:45

Stanford AI Lab@StanfordAILab

斯坦福人工智能实验室（SAIL）发布博客文章，介绍其最新研究VAGEN。VAGEN是一个强化学习框架，旨在训练视觉语言模型（VLM）智能体通过明确的视觉状态推理来构建内部世界模型。该框架使智能体能够更好地理解环境动态，从而在复杂任务中做出更合理的决策。这一进展对于提升AI在机器人、自动驾驶等需要环境理解的领域中的表现具有重要意义。

论文强化学习 VLM智能体世界模型视觉推理斯坦福SAIL

推荐理由：VAGEN解决了VLM智能体在复杂环境中缺乏内部世界模型的问题，做机器人或自动驾驶研究的团队值得关注，它可能让AI的决策更接近人类推理。

原文

5月29日

13:01

arXiv: DeepSeek@Zihang Li, Rui Zhou, Yingcheng Shi, Wenhan Yu, Zhewen Tan, Zixiang Liu, Zeming Li, Binhua Li, Yongbin Li, Tong Yang, Jieping Ye

72°

ESPO（Early-Stopping Proximal Policy Optimization）是一种针对大语言模型强化学习训练的新方法，能在推理轨迹中早期检测到错误步骤并提前终止生成。传统PPO算法在模型犯错后仍会强制生成直到最大步长，浪费计算资源并污染优势估计。ESPO通过实时计算基于logits的代理遗憾值，在累积遗憾显著超过估计值时终止轨迹，并将截断轨迹视为吸收失败状态，无需额外奖励模型或人工标注。在DeepSeek-R1-Distill-Qwen-7B的数学推理训练中，ESPO在AIME 2024、AMC 2023和MATH-500上均超越PPO，同时累计节省超过20%的生成token。

论文强化学习 PPO 数学推理训练效率 DeepSeek

推荐理由：做LLM强化学习训练的团队终于有了一个能省算力又提效果的方法——ESPO在数学推理任务上不仅性能更好，还省了20%的token，训练成本敏感的团队值得一试。

原文

11:08

arXiv cs.AI@Chen Henry Wu, Aditi Raghunathan

精选83°

论文提出自训练验证（STV）方法，解决推理模型在测试时验证-精炼循环和训练时自训练中验证器失效的瓶颈。核心发现是模型单独无法捕捉自身错误，但看到参考答案后可以，利用这一不对称性训练验证器模仿更知情版本。STV在困难数学题上准确率翻倍，科学推理任务从1.5%提升至21%。结合验证器在循环中的强化学习（ViL），使pass@1再提升33%，且生成器独立推理能力也超越标准RL收敛点。这表明推理模型的下一个前沿在于如何训练验证及利用验证。

论文推理模型自训练验证测试时改进强化学习验证器

推荐理由：推理模型开发者长期受困于验证器失效导致自改进停滞，STV用参考答案不对称性巧妙破解，在困难数学和科学任务上效果显著，做自训练或测试时搜索的团队值得深入看。

原文

10:24

Clement Delangue@ClementDelangue

精选72°

Hugging Face CEO Clément Delangue指出，当前大多数人在用强化学习训练智能体LLM时，存在一个静默的bug：单轮RL表现完美，但加入工具调用后，损失函数会无故飙升，最终出现形状不匹配错误。根本原因在于，每次解析模型输出以检测工具调用时，重新对更新后的对话进行token化，可能导致梯度落在模型从未实际采样的序列上，从而产生无用的梯度信号。修复方法很简单：永远不要重新编码已经解码的token，将采样的token保存在一个缓冲区中，避免重新渲染。团队已发布深度分析，包括对主流开源模型家族的审计，显示大多数聊天模板已支持该修复。

论文强化学习智能体 Token编码训练陷阱开源模型

推荐理由：做多轮RL训练智能体LLM的团队，这个静默bug可能正在破坏你的训练曲线，看完这篇分析能直接修复，省下大量调试时间。

原文

5月28日

23:48

AK@_akhaliq

该研究提出了一种名为 Agent Explorative Policy Optimization (AEPO) 的新方法，用于优化多模态智能体的推理策略。通过探索性策略优化，智能体能够在复杂多模态环境中更有效地进行推理和决策。实验表明，AEPO 在多个基准测试上显著提升了智能体的性能，尤其是在需要多步推理和跨模态理解的任务中。这项工作为构建更强大的多模态智能体提供了新的训练范式。

论文智能体多模态推理模型强化学习 AEPO

推荐理由：多模态智能体推理是当前 AI 的前沿方向，AEPO 为开发者提供了一种可落地的训练优化思路，做智能体或多模态应用的团队值得关注。

原文

22:05

Clement Delangue@ClementDelangue

精选83°

Hugging Face 科学团队在 TRL 库中实现了一种新的异步强化学习权重同步方法，将每次同步的带宽成本降低约 100 倍。核心洞察是：在 RL 步骤之间，约 99% 的 bf16 权重是比特相同的，只有极少部分发生变化。他们只将变化的元素编码为稀疏 safetensors 文件，通过 Hugging Face Bucket 传输，而不是传输整个权重文件。以 Qwen3-0.6B 为例，每次步骤的传输量从 1.2 GB 降至 20-35 MB。这意味着不再需要共享集群、RDMA、VPN 或跨云 NCCL，只需一个 GPU 和一个 Hugging Face 账号即可进行真正的分离式 RL 训练。

AI产品强化学习权重同步 Hugging Face TRL 分布式训练

推荐理由：做分布式 RL 训练的团队终于可以告别昂贵的带宽和复杂的基础设施——只需 HTTPS 和一个 Bucket，就能实现跨区域的推理集群同步，建议搞 RL 的开发者直接看原文。

原文

15:39

pandaily@contact@pandaily.com (Pandaily)

精选76°

Sphere AI Lab 开源了 Orbit，一个强化学习后训练框架，支持在单个 8×B200 节点上对万亿参数模型（如 DeepSeek-V4）进行微调。该框架通过优化内存和计算效率，大幅降低了大规模模型训练的门槛，使得资源有限的团队也能进行高效的后训练。Orbit 的发布解决了万亿参数模型训练需要大规模集群的痛点，有望推动更多研究者和开发者参与大模型的后训练优化。

AI模型开源/仓库强化学习后训练万亿参数 DeepSeek-V4

推荐理由：Orbit 让万亿参数模型的后训练不再依赖大规模集群，做 RL 微调或大模型优化的团队可以直接在单节点上跑 DeepSeek-V4，建议试试这个开源方案。

原文