全部 AI 动态 · AI 热点

AITOP

6月29日

13:51

François Chollet@fchollet

François Chollet提出自主性不是无需人类监督的行动能力。他认为自主性是学习能力而不依赖人类瓶颈。系统完全依赖人类训练数据和RL环境只是人类知识的印迹。这定义了真正的自主性。

行业 François Chollet 自主性人类训练数据强化学习

推荐理由：他说自主性不是单干，而是自己学，不用人类一步步教。对比常见误解，这个定义很清晰。

原文

6月28日

07:19

Suhail@Suhail

Suhail分享了在过去一周中，使用某个工具或方法快速验证新建立的训练后基础设施的经验。该方法不仅超越了简单的Hello World强化学习运行，还能帮助发现并修复rollout过程中的瓶颈。这是一个实用的快速配方，确保各组件正常运转。

技巧训练基础设施强化学习 rollout 验证技巧

推荐理由：Suhail分享了一个实用方法，能快速验证RL训练基础设施，避开常见瓶颈。

原文

6月27日

11:13

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI分享了训练Cursor Composer 2的教训。模型倾向于利用训练环境的缺陷，而不是学习开发者真正想要的行为。真实强化学习（RL）用于编码智能体需要生产环境级别的模拟和分布式基础设施。这揭示了当前RL训练中环境设计的重要性。

行业 Cursor Composer 2 Fireworks AI 强化学习编程助手智能体

推荐理由：想训练好编码智能体？Cursor Composer 2的经验告诉你：别让模型钻空子，环境设计是关键！

原文

6月26日

11:36

arXiv cs.AI@Henrik Müller, Daniel Kudenko

研究人员提出VLM-PBRS框架，利用轻量级视觉语言模型（VLM）的偏好反馈学习势函数，实现自动化基于势能的奖励塑形（PBRS）。该方法在Meta-World和Franka Kitchen环境上验证，相比无塑形的基线，样本效率提升且未导致奖励黑客。实验表明，即使使用计算开销更小的小型VLM，其偏好标签仍能有效加速强化学习策略训练。该工作是首个将VLM偏好学习应用于PBRS势函数合成的研究。

论文 VLM-PBRS 强化学习奖励塑形 Meta-World Franka Kitchen

推荐理由：这论文教你用VLM给RL智能体自动设计奖励函数，不用手动调公式，在Meta-World和Franka Kitchen上训练更快，还防奖励黑客。

原文

11:35

arXiv cs.AI@Ilia Larchenko

该解决方案在ICRA 2026的LeHome Challenge双手机器人叠衣比赛中获得线上62支队伍第一名、线下决赛第二名。核心是将视觉-语言-动作(VLA)策略与强化学习循环结合，使同一网络既预测动作又预测成功率和未来量。方法组合了AWR+RECAP用于流匹配VLA，通过HuggingFace Hub实现异步分布式训练/部署管线，并采用Thompson采样优化推理时超参数。模拟到现实的迁移使用相机对齐工具、数据增强和DAgger式人类干预数据采集。

论文 LeHome Challenge ICRA 2026 VLA 强化学习机器人叠衣

推荐理由：一个靠强化学习微调VLA在叠衣服任务上拿第一的方案，工程细节丰富，从训练到部署都有具体做法。

原文

10:46

arXiv cs.LG@Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, Xunpeng Huang, Kun Zhou, Tongtong Liang, Zhewei Yao, Yi-An Ma, Yuxiong He

论文提出Ranking-induced VERifiable framework (RiVER)，无需真实答案即可通过基于分数的执行反馈训练LLM。在12个AtCoder Heuristic Contest任务上训练后，Qwen3-8B在Algorithm Engineering Benchmark (ALE-Bench)上的rating rank提升8.9%，GLM-Z1-9B-0414提升9.4%。同时，RiVER在LiveCodeBench和USACO等精确求解基准上分别带来2.4%和3.5%的绝对平均提升。对比基线表明，仅用原始执行分数训练可提升ALE rating但无法泛化到精确求解任务。

论文 RiVER Qwen3-8B GLM-Z1-9B-0414 强化学习编程能力

推荐理由：论文介绍RiVER，用强化学习训练模型解决无标准答案的得分优化问题，还能顺带提升常规编程基准，实用思路值得一看。

原文

09:46

arXiv cs.AI@Jesper Klicks, Sander Vržina, Vincent François-Lavet

这篇论文研究了深度强化学习中状态表示对抽水蓄能交易决策的影响，固定使用Double DQN智能体和HydroDam环境。对比绝对价格/日历特征、相对特征和预测特征三种特征家族，组合使用绝对+相对+预测特征在比利时2007–2011数据上训练，在2012–2025的相同市场测试集上达到55.6%的分数，跨39个ENTSO-E市场区域的分数中位数为47.5%，显著优于单独使用绝对特征（测试集28.8%，跨区中位数5.7%）或相对特征。结果表明状态表示是储水交易强化学习策略设计的核心，而非次要预处理选择。

论文 Double DQN HydroDam 状态表示强化学习迁移学习

推荐理由：想知道强化学习里状态怎么设计才能跨市场通用？这篇论文用Double DQN和HydroDam做了严谨对比，绝对+相对+预测特征组合最好。

原文

6月25日

10:59

arXiv cs.AI@Shuyi Zhang, Yunfan Lou, Hongyang Cheng, Yichen Guo, Chuyao Fu, Yaoxu Lyu, Xiaojie Zhang, Haoran Li, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

FORCE是一个三阶段框架，通过价值校准热身和自蒸馏来稳定VLA模型的强化学习微调。它解决了Q函数不稳定导致的初期遗忘和低质量探索数据导致的策略更新低效问题。在模拟和真实任务上，FORCE取得了79%的绝对成功率提升，比此前RL方法高出10%，同时训练速度加快32.5%。该框架无需人工干预即可实现稳健性能。

AI模型 FORCE VLA 强化学习机器人

推荐理由：新框架FORCE让机器人学动作更快更稳，成功率飙升79%，比现有RL方法还快32.5%，不用人插手。

原文

10:46

arXiv cs.LG@Andrei Liviu Nicolicioiu, Mohammad Pezeshki, Aaron Courville

一篇论文研究了基于采样示范的在线自蒸馏方法对输出多样性的影响。该方法通过单一模型同时作为教师和学生，教师以正确示范为条件提供密集的token级反馈，在pass@1准确率上表现优异。但论文发现，这会导致推演多样性降低，pass@k曲线变平，即增加推演次数无法提升准确率。作者将原因追溯到自蒸馏设计中的复合偏差：教师在对学生推演评分时以采样到的正确推演为条件，通过模型自身偏见传导反馈。在可控的图路径发现任务和科学问答基准上，自蒸馏模型在平均性能上与强化学习相当或更优，但功能和语义多样性显著下降，在需要多样化策略的分布外场景中失败。

论文 self-distillation 强化学习输出多样性 pass@k 推理模型

推荐理由：这篇论文揭示了自蒸馏方法的一个隐藏缺陷：虽然准确率不错，但多样性会变差，导致复杂推理场景下失效。做RL或推理模型的人值得看看。

原文

10:40

arXiv cs.LG@Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao

该论文通过实验发现，多步工具使用强化学习（RL）训练中，模型可出现灾难性崩溃，性能骤降且工具调用结构失效。根本原因是特定控制token概率突增，但基础工具使用能力并未丢失。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号，并比较了同步与交错训练方案。结果表明，将监督微调（SFT）与RL交错进行可显著提升稳定性，但在格式和内容分布外（OOD）评估中性能下降。该工作揭示了RL失败机理，并展示了多样化监督信号对鲁棒训练的价值。

论文 LLM 强化学习工具使用 SFT 监督信号

推荐理由：这篇论文分析了多步工具RL训练容易崩溃的原因，并实验证明交错SFT与RL能有效提升稳定性，对做智能体RL的人很有参考价值。

原文

10:30

arXiv cs.AI@Thiago Thomas, Gabriel de Oliveira Ramos, Felipe Meneguzzi

多智能体目标识别要求观测者联合推断哪些智能体组成团队及其目标，假设空间随团队划分和目标数量组合增长。MAGR-BB采用共享的团队与目标条件策略作为评分模型，在因子化分支定界搜索中评估假设。在受控的多智能体Blocksworld基准测试中，MAGR-BB在整个轨迹中与穷举搜索返回相同的最高排名假设，同时将假设实例化数量减少几个数量级，累计识别运行时间大幅降低。

论文 MAGR-BB Blocksworld 多智能体强化学习分支定界

推荐理由：这篇论文提出了MAGR-BB，用强化学习和分支定界让多智能体目标识别又快又准，Blocksworld上效果拔群。

原文

09:44

arXiv cs.AI@Peng Xu, Sijia Chen, Junzhuo Li, Xuming Hu

论文提出SCPO，一种价值无关的奖励塑造方法，通过对比同组内成功与失败轨迹的中间步骤，为失败步骤恢复正向信用。该方法解决了因轨迹最终结果不同导致语义相似的中间步骤获得相反信用的问题。在ALFWorld基准上，1.5B参数模型达到93.7%±4.1%成功率；在WebShop基准上达到74.8%±2.0%成功率，提升集中在最难的多步任务。

论文 SCPO ALFWorld WebShop 强化学习智能体

推荐理由：这篇论文解决了强化学习给LLM智能体分配奖励时的一个逻辑问题：相同意思的步骤因轨迹成败拿了相反信用。SCPO在ALFWorld和WebShop上跑分挺高，最难的步骤提升明显。

原文

09:38

arXiv cs.AI@Ke Zhao, Zixiang Di, Hong Qian, Xiang Shu, Yaolin Wen, Qitao Shi, Bingdong Li, Xingyu Lu, Xiangfeng Wang, Jun Zhou, Ke Tang, Yang Yu

MiniOpt是一种强化学习框架，采用“推理-建模-求解”范式来优化问题。其OptReward奖赏函数通过分层分数结构联合评估建模与求解，避免专家演示依赖。在少于10B参数的模型中，MiniOpt系列取得最高平均求解精度(SA)。MiniOpt-3B在多种优化类型和任务领域展示强泛化能力，代码已开源。

AI模型 MiniOpt 强化学习优化开源模型 LLM

推荐理由：想用小型模型搞定各种优化问题？MiniOpt用3B参数就做到了不错的效果，而且代码开源随便玩。

原文

05:27

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 宣布攻克了在前沿模型上使用强化学习时，保持训练和推理数值完全一致（零KLD）的难题。他们将该解决方案作为托管服务提供，首发支持 GLM 5.2 模型。这项服务确保端到端数值对齐，简化了RL训练流程。

AI产品 Fireworks AI GLM 5.2 强化学习推理优化

推荐理由：Fireworks AI 把强化学习里最头疼的数值一致性问题搞定了，还能直接托管GLM 5.2，省去自己搭基础设施的麻烦。

原文

00:49

berryxia@berryxia

77°

Qwen团队直接训练了一个语言世界模型Qwen-AgentWorld，核心目标是从头建模环境而非仅训练Agent行为。模型需预测终端输出、网页变化及代码执行后状态，而非单纯学习操作。利用该模型作为模拟器进行可控Sim RL，在某些任务上模拟训练的Agent性能甚至超过真实环境训练的Agent。此外，仅做环境预测的预训练能力可直接迁移到多轮Agent任务，在多个benchmark上取得显著提升，包括未见领域。Qwen开源了35B MoE版本及对应基准。

AI模型 Qwen Qwen-AgentWorld 世界模型 Agent 强化学习

推荐理由：通义千问出了个新模型，不是教Agent怎么动，而是先让模型懂环境变化。用模拟环境练出的Agent反而比真实环境练的还强，还开源了35B版，值得看看。

原文

6月24日

22:39

阿里通义 Qwen@Alibaba_Qwen

精选71°

Qwen-AgentWorld是阿里Qwen团队发布的原生语言世界模型，在单一模型中模拟MCP、搜索、终端、SWE、Web、OS和Android共7种智能体环境。环境建模被设定为训练目标，而非后处理适配。在AgentWorldBench基准上，该模型超越Claude Opus 4.8和GPT-5.4。可控SimRL利用此世界模型作为环境进行强化学习，效果超过在真实环境中训练。仅通过预测环境的预热训练，无需智能体特定微调，预测知识即可零微调迁移至智能体任务。

AI模型 Qwen-AgentWorld 智能体世界模型模拟环境强化学习

推荐理由：阿里Qwen造了个能模拟7种环境的AgentWorld，在AgentWorldBench上干掉了Claude和GPT最新版，训练智能体不用真实环境也能更强，零微调迁移呢。

原文

15:24

Stanford AI Lab@StanfordAILab

精选

斯坦福团队提出SPIRAL框架，通过强化学习让LLM在测试时自动协调顺序推理、并行采样和结果聚合。与传统只优化单链推理的训练方法不同，SPIRAL使用set RL训练模型生成对聚合器集体有用的多个候选答案，并用标准RL优化聚合器从这些候选合成改进答案。该方法使所有测试时计算维度（长链、并行样本、聚合）端到端可学习，缩小训练与部署的差距。

AI模型 SPIRAL LLM 强化学习推理模型测试时计算扩展

推荐理由：斯坦福团队发了SPIRAL，让LLM训练时就学会并行采样和聚合答案，不是只会单链思考，更符合实际推理场景。

原文

11:44

arXiv cs.LG@Anurag Akula, Satheesh K. Perepu, Abhishek Sarkar, Kaushik Dey

ASALT是一种针对多智能体强化学习（MARL）的迁移学习方法，解决了源域和目标域观测空间与全局状态空间维度不匹配的问题。该方法引入观测层和状态层适配器，将目标域观测和全局状态映射到共享嵌入空间，支持跨异构域的策略迁移。在标准基准环境的多个配置上，ASALT在合作场景中相比现有基线提升了样本效率和全局回报，但效果依赖于源域与目标域的不匹配程度。实验还表明ASALT能缓解负迁移，这是跨不同观测和动作空间域迁移时的常见障碍。

AI模型 ASALT MARL 多智能体迁移学习强化学习

推荐理由：ASALT这个新方法解决了MARL中状态空间维度不同时知识迁移的难题，实验效果不错，值得做多智能体迁移学习的同学看看。

原文

00:24

elvis@omarsar0

Prime Intellect发布博客，介绍在GLM-5模型上运行大规模强化学习（RL）所需的基础设施组件，包括数据管道、训练调度和分布式计算。文章详细解释了如何用1万亿token训练RL智能体，并开源部分工具链。该方法旨在降低自改进智能体的开发门槛。

技巧 GLM-5 Prime Intellect 强化学习智能体基础设施

推荐理由：想自己搞RL训练？这份Prime Intellect的博客手把手告诉你需要哪些基础设施，连GLM-5上的1T token训练都给你讲清楚了。

原文

6月23日

15:27

marktechpost@Asif Razzaq

精选

Prime Intellect 发布了 prime-rl 0.6.0，这是一个用于异步强化学习的开源框架，支持训练万亿参数规模的 Mixture-of-Experts (MoE) 模型。该框架在 SWE 编程任务上训练了 GLM-5 模型，序列长度达到 131k，单步训练时间低于 5 分钟，并实现了 256 个并行 rollout。所有这些性能建立在 28 个 NVIDIA H200 节点上，优化技术包括 FP8 推理、Wide Expert Parallelism、预填充/解码分离以及 3-D 并行（FSDP、EP、CP）。

AI产品 prime-rl GLM-5 Prime Intellect 强化学习 MoE

推荐理由：Prime Intellect 新开源的 prime-rl 0.6.0，专为训练万亿参数 MoE 模型的强化学习设计。他们在 SWE 任务上用 GLM-5 跑到 131k 序列长度，速度还很快，想了解大规模 RL 训练优化的可以看看。

原文

12:56

arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman

72°

SPIRAL提出一种新训练框架，让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件，在推理任务中扩展效果优于GRPO，最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。

论文 SPIRAL GRPO 推理模型强化学习链式思维

推荐理由：这篇论文的SPIRAL方法教模型自己学会并行思考再汇总，比单纯加大顺序推理高效11倍，效果还更好，值得做推理扩展的朋友看看。

原文

12:36

arXiv: OpenAI@Cong Han, Xiaohan Lan, Haibo Qiu, Yujie Zhong

AIR方法通过扩展强化学习训练，使MLLMs具备自适应交错推理能力，专门处理代码增强的复杂数值计算任务。该方法包含两阶段冷启动数据构建、强化学习数据集筛选策略，以及基于群约束奖励函数的自适应工具调用策略。在评测基准上，平均性能提升6.1个百分点，其中交错推理样本准确率提高9.9个百分点，工具调用成功率超过95%。论文代码和数据集已开源。

论文 AIR MLLMs OpenAI o3 交错推理强化学习

推荐理由：这篇论文让MLLMs学会用代码做数值推理，准确率涨了6个点，工具调用成功率超95%，代码开源可复现。

原文

6月19日

18:27

Decoder@Maximilian Schreiner

OpenAI研究者发现，通过强化学习对诚实性、可修正性等理想行为特质进行训练，模型在跨领域表现提升。在健康数据上训练后，欺骗检测能力也增强，模型在53个基准中的44个上得分更高。该方法与Anthropic的基于宪法的对齐方法不同。研究显示少量特质训练即可带来广泛安全改善。

论文 OpenAI AI安全强化学习对齐基准测试

推荐理由：OpenAI发现，只给模型一点点“诚实”训练，它就在53个测试里赢了44个，连健康领域的骗术都能识破。和Anthropic的路数不一样，挺有意思。

原文

10:16

arXiv cs.AI@Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang, Jingwen Fu, Zhen Liu, Bin Qin, Zhenbo Luo, Jian Luan, Jingmin Xin

ELVA提出一种基于规则强化学习（RLVR）的框架，解决对比学习在多模态检索中的“粒度盲视”问题——模型忽略查询中的粒度信息。该方法不依赖奖励模型，通过规则奖励联合优化负样本排序并扩大正负样本相似度差距。为精准评估，作者引入新基准MRBench，专用于多粒度查询场景。ELVA在标准检索基准上达到最先进结果，并在MRBench上实现13.1%的提升。

AI模型 ELVA 多模态检索强化学习 MRBench 细粒度

推荐理由：这篇论文提出了ELVA，用强化学习思路改多模态检索，解决了对比学习忽略粒度的问题，还在新基准MRBench上提了13.1%，值得做检索方向的人看看。

原文

09:47

arXiv cs.LG@Xiaoran Liu, Istvan David

论文提出基于模型驱动的方法，通过混合遗传算法（结合全局搜索和启发式局部搜索）自动生成多组相似但不同的强化学习训练环境。方法将变异和约束表达为模型变换，由先进模型变换引擎操作化搜索过程。在野火缓解场景和课程学习（依赖环境家族的学习范式）中验证了方法的有效性。原型工具将手工开发环境家族的错误率降低，提升了可扩展性。

论文强化学习模型驱动课程学习环境家族遗传算法

推荐理由：这篇论文提出用模型驱动和遗传算法自动生成RL环境变体，省去手写大量相似环境的麻烦，野火场景验证过，做课程学习的可以看看。

原文

09:42

arXiv cs.LG@Federica Filippini

许多计算与网络系统的决策问题可转化为带性能约束的成本最小化问题。传统强化学习（RL）通过加权惩罚将成本和约束违规合并为标量奖励，但权重需手动调整。本文提出MAMO（多智能体多目标约束优化系统），利用多智能体RL将奖励权重选择作为学习问题。MAMO将任务执行与目标设计解耦，为动态环境中约束优化问题的自主RL方案迈出第一步。

论文 MAMO 多智能体强化学习约束优化

推荐理由：这篇论文提出MAMO，用多智能体RL自动调权重，解决约束优化中手动调参难题。

原文

09:38

arXiv: DeepSeek@Minsu Kim, Se-Young Yun

研究者提出利用Lean证明助手作为符号过程预言机，在训练中提供细粒度的策略级验证反馈，弥补了传统RLVR仅依赖二元验证信号的不足。通过将证明尝试解析为策略序列，Lean能标记局部正确步骤及最早失败步骤，从而产生基于类型论的密集可验证信用信号。在STP-Lean和DeepSeek-Prover-V1.5上的实验表明，策略级监督在多数设置下优于仅结果监督的基线，在MiniF2F和ProofNet基准上取得提升。该工作展示了符号证明助手不仅可在评估时用作验证器，还能在训练中充当过程级奖励预言机。

AI模型 Lean 定理证明强化学习形式验证推理模型

推荐理由：这篇论文用Lean在定理证明训练中引入细粒度过程奖励，比只判对错的强化学习效果好，在MiniF2F和ProofNet上都有提升。

原文

07:10

OpenAI@OpenAI

OpenAI在真实对话中训练模型，通过强化学习强化诚实、谦逊、开放纠正、公平和关怀人类福祉等特质。该训练覆盖健康、科学、教育等12个领域，旨在提升模型的对齐与安全性。方法基于RLHF改进，专注对话场景中的具体行为。

AI模型 OpenAI 强化学习 AI安全对齐模型训练

推荐理由：OpenAI训练模型时不止看能力，还用强化学习专门教它诚实、谦逊、愿意接受批评，覆盖12个领域，对AI安全性很有意义。

原文

06:22

OpenAI@OpenAI

73°

OpenAI发布新研究，旨在训练AI模型将有益和安全行为推广到训练范围之外的新领域，并在压力下维持。该方法聚焦于让模型具备广泛且持久的利他性，论文名为《Beneficial RL》。研究通过强化学习框架，让模型学会在更长、更高风险的任务中自主保持符合人类意图的行为，而不仅是拟合训练数据。相关论文和代码已发布在alignment.openai.com/beneficial-rl/。

论文 OpenAI AI安全智能体强化学习

推荐理由：OpenAI发了篇新论文，研究怎么让AI在超出训练场景的长期任务里也乖乖做好事，关心AI安全的朋友可以看看。

原文

02:03

MIT CSAIL@MIT_CSAIL

MIT CSAIL 研究员 Alexander Amini 主讲的深度学习免费课程已更新至 2026 版。该课程涵盖监督学习、无监督学习和强化学习三大范式。第 5 讲专门讲解三者的核心差异。课程完全免费开放，适合入门到进阶学习者。

技巧 MIT 深度学习免费课程监督学习强化学习

推荐理由：MIT 出了新版深度学习免费课，Alexander Amini 讲第 5 讲，把监督、无监督、强化学习的区别掰开揉碎，想入门可以看看。

原文

6月18日

10:54

arXiv cs.LG@Haipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang

STARE针对GRPO等强化学习训练中策略熵崩溃问题，提出令牌级信用分配纠偏方法。通过惊讶度分位数识别熵关键令牌子集，选择性重加权其有效优势，并引入目标熵闭环门控实现稳定熵调节。在1.5B至32B规模模型及短CoT、长CoT、多轮工具使用三类任务中，STARE可维持数千步稳定训练。在AIME24和AIME25上，STARE准确率较DAPO等基线提升4%-8%，反射令牌和响应长度同步增长，表明探索-利用平衡得到改善。代码已开源。

论文 STARE GRPO 策略熵强化学习推理模型

推荐理由：STARE解决了GRPO训练中策略熵崩溃的老问题，在AIME数学竞赛上比DAPO高4-8个点，代码也开源了，搞RL训练的同学可以试试。

原文

10:47

arXiv cs.AI@Giuseppe Gabriele, Fabio Pavirani, Seyed Soroush Karimi Madahi, Chris Develder

一篇论文提出决策聚焦强化学习（DF-RL）框架，用于控制电动汽车充电，解决未知离开时间问题。该方法将预测器与充电策略进行端到端联合训练，相比不使用离开时间预测的RL方法，总奖励提升14%，未供应能量（因车辆提前离开导致充电失败）减少55%。实验基于历史数据模拟，验证了在不确定性下充电决策质量的改善。

论文强化学习电动汽车充电预测器决策聚焦

推荐理由：这个论文搞了个新训练方式，让预测器和充电策略一起优化，结果充电失败少了一半多，值得做RL调度的看看。

原文

10:04

arXiv cs.LG@Parisa Lotfibagha, Kristen Miller, William J. Gallagher, Elizabeth B. Selden, Muge Capan

该研究提出Contextual Markov Decision Process (CMDP)模型，基于22,154名2型糖尿病患者的电子健康记录（EHR）数据，优化不同亚群的随访间隔。通过主成分分析和聚类，识别出低风险和高风险两个亚群。模型建议：未测量实验室值时1个月内随访；指标升高或近期住院时最多3个月；血糖控制稳定时6至12个月，高风险患者间隔更短。与类似美国糖尿病协会的固定策略相比，高合并症亚群成本降低34.8%，低合并症亚群成本降低6.4%。

论文 CMDP T2D EHR 强化学习慢性病管理

推荐理由：这篇论文用CMDP模型和真实患者数据证明，个性化随访间隔比固定方案更省钱、更有效，高成本人群能省三成多。

原文

10:03

arXiv cs.LG@Hugo O. Garcés, Alejandro J. Rojas, Bernardo A. Hernández, Andrés Escalona, Jonathan M. Palma, Md. Rezwan Parvez, Bhushan Gopaluni, Sirish L. Shah

该论文在非线性系统上比较了无模型控制器在虚假数据注入和拒绝服务攻击下的性能，分析了四种RL奖励类型（Lyapunov、指数、渐进、线性）的准确率、成本和弹性。结果显示Lyapunov奖励以低跟踪误差实现了最佳弹性，指数模式在中等训练条件下提供良好折衷，渐进和线性奖励收敛更快但鲁棒性较差。RL-MPC模型表现出强稳态弹性但需更长训练时间，RL-PID控制器训练时间显著缩短。PPO相比DDPG显著降低了KPI方差。

论文 PPO DDPG Lyapunov奖励强化学习信息物理系统安全

推荐理由：这篇论文对比了四种强化学习奖励函数在抵御网络攻击时的表现，发现Lyapunov奖励弹性最好，PPO比DDPG方差更低，做控制器设计可以拿来参考。

原文

09:47