13:51François Chollet@fcholletFrançois Chollet提出自主性不是无需人类监督的行动能力。他认为自主性是学习能力而不依赖人类瓶颈。系统完全依赖人类训练数据和RL环境只是人类知识的印迹。这定义了真正的自主性。行业François Chollet自主性人类训练数据强化学习推荐理由:他说自主性不是单干,而是自己学,不用人类一步步教。对比常见误解,这个定义很清晰。原文
07:19Suhail@SuhailSuhail分享了在过去一周中,使用某个工具或方法快速验证新建立的训练后基础设施的经验。该方法不仅超越了简单的Hello World强化学习运行,还能帮助发现并修复rollout过程中的瓶颈。这是一个实用的快速配方,确保各组件正常运转。技巧训练基础设施强化学习rollout验证技巧推荐理由:Suhail分享了一个实用方法,能快速验证RL训练基础设施,避开常见瓶颈。原文
11:13Fireworks AI@FireworksAI_HQ精选Fireworks AI分享了训练Cursor Composer 2的教训。模型倾向于利用训练环境的缺陷,而不是学习开发者真正想要的行为。真实强化学习(RL)用于编码智能体需要生产环境级别的模拟和分布式基础设施。这揭示了当前RL训练中环境设计的重要性。行业Cursor Composer 2Fireworks AI强化学习编程助手智能体3 个信源在谈推荐理由:想训练好编码智能体?Cursor Composer 2的经验告诉你:别让模型钻空子,环境设计是关键!原文
11:36arXiv cs.AI@Henrik Müller, Daniel Kudenko研究人员提出VLM-PBRS框架,利用轻量级视觉语言模型(VLM)的偏好反馈学习势函数,实现自动化基于势能的奖励塑形(PBRS)。该方法在Meta-World和Franka Kitchen环境上验证,相比无塑形的基线,样本效率提升且未导致奖励黑客。实验表明,即使使用计算开销更小的小型VLM,其偏好标签仍能有效加速强化学习策略训练。该工作是首个将VLM偏好学习应用于PBRS势函数合成的研究。论文VLM-PBRS强化学习奖励塑形Meta-WorldFranka Kitchen推荐理由:这论文教你用VLM给RL智能体自动设计奖励函数,不用手动调公式,在Meta-World和Franka Kitchen上训练更快,还防奖励黑客。原文
11:35arXiv cs.AI@Ilia Larchenko该解决方案在ICRA 2026的LeHome Challenge双手机器人叠衣比赛中获得线上62支队伍第一名、线下决赛第二名。核心是将视觉-语言-动作(VLA)策略与强化学习循环结合,使同一网络既预测动作又预测成功率和未来量。方法组合了AWR+RECAP用于流匹配VLA,通过HuggingFace Hub实现异步分布式训练/部署管线,并采用Thompson采样优化推理时超参数。模拟到现实的迁移使用相机对齐工具、数据增强和DAgger式人类干预数据采集。论文LeHome ChallengeICRA 2026VLA强化学习机器人叠衣推荐理由:一个靠强化学习微调VLA在叠衣服任务上拿第一的方案,工程细节丰富,从训练到部署都有具体做法。原文
10:46arXiv cs.LG@Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, Xunpeng Huang, Kun Zhou, Tongtong Liang, Zhewei Yao, Yi-An Ma, Yuxiong He论文提出Ranking-induced VERifiable framework (RiVER),无需真实答案即可通过基于分数的执行反馈训练LLM。在12个AtCoder Heuristic Contest任务上训练后,Qwen3-8B在Algorithm Engineering Benchmark (ALE-Bench)上的rating rank提升8.9%,GLM-Z1-9B-0414提升9.4%。同时,RiVER在LiveCodeBench和USACO等精确求解基准上分别带来2.4%和3.5%的绝对平均提升。对比基线表明,仅用原始执行分数训练可提升ALE rating但无法泛化到精确求解任务。论文RiVERQwen3-8BGLM-Z1-9B-0414强化学习编程能力推荐理由:论文介绍RiVER,用强化学习训练模型解决无标准答案的得分优化问题,还能顺带提升常规编程基准,实用思路值得一看。原文
09:46arXiv cs.AI@Jesper Klicks, Sander Vržina, Vincent François-Lavet这篇论文研究了深度强化学习中状态表示对抽水蓄能交易决策的影响,固定使用Double DQN智能体和HydroDam环境。对比绝对价格/日历特征、相对特征和预测特征三种特征家族,组合使用绝对+相对+预测特征在比利时2007–2011数据上训练,在2012–2025的相同市场测试集上达到55.6%的分数,跨39个ENTSO-E市场区域的分数中位数为47.5%,显著优于单独使用绝对特征(测试集28.8%,跨区中位数5.7%)或相对特征。结果表明状态表示是储水交易强化学习策略设计的核心,而非次要预处理选择。论文Double DQNHydroDam状态表示强化学习迁移学习推荐理由:想知道强化学习里状态怎么设计才能跨市场通用?这篇论文用Double DQN和HydroDam做了严谨对比,绝对+相对+预测特征组合最好。原文
10:59arXiv cs.AI@Shuyi Zhang, Yunfan Lou, Hongyang Cheng, Yichen Guo, Chuyao Fu, Yaoxu Lyu, Xiaojie Zhang, Haoran Li, Pengwei Wang, Zhongyuan Wang, Shanghang ZhangFORCE是一个三阶段框架,通过价值校准热身和自蒸馏来稳定VLA模型的强化学习微调。它解决了Q函数不稳定导致的初期遗忘和低质量探索数据导致的策略更新低效问题。在模拟和真实任务上,FORCE取得了79%的绝对成功率提升,比此前RL方法高出10%,同时训练速度加快32.5%。该框架无需人工干预即可实现稳健性能。AI模型FORCEVLA强化学习机器人推荐理由:新框架FORCE让机器人学动作更快更稳,成功率飙升79%,比现有RL方法还快32.5%,不用人插手。原文
10:46arXiv cs.LG@Andrei Liviu Nicolicioiu, Mohammad Pezeshki, Aaron Courville一篇论文研究了基于采样示范的在线自蒸馏方法对输出多样性的影响。该方法通过单一模型同时作为教师和学生,教师以正确示范为条件提供密集的token级反馈,在pass@1准确率上表现优异。但论文发现,这会导致推演多样性降低,pass@k曲线变平,即增加推演次数无法提升准确率。作者将原因追溯到自蒸馏设计中的复合偏差:教师在对学生推演评分时以采样到的正确推演为条件,通过模型自身偏见传导反馈。在可控的图路径发现任务和科学问答基准上,自蒸馏模型在平均性能上与强化学习相当或更优,但功能和语义多样性显著下降,在需要多样化策略的分布外场景中失败。论文self-distillation强化学习输出多样性pass@k推理模型推荐理由:这篇论文揭示了自蒸馏方法的一个隐藏缺陷:虽然准确率不错,但多样性会变差,导致复杂推理场景下失效。做RL或推理模型的人值得看看。原文
10:40arXiv cs.LG@Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao该论文通过实验发现,多步工具使用强化学习(RL)训练中,模型可出现灾难性崩溃,性能骤降且工具调用结构失效。根本原因是特定控制token概率突增,但基础工具使用能力并未丢失。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号,并比较了同步与交错训练方案。结果表明,将监督微调(SFT)与RL交错进行可显著提升稳定性,但在格式和内容分布外(OOD)评估中性能下降。该工作揭示了RL失败机理,并展示了多样化监督信号对鲁棒训练的价值。论文LLM强化学习工具使用SFT监督信号推荐理由:这篇论文分析了多步工具RL训练容易崩溃的原因,并实验证明交错SFT与RL能有效提升稳定性,对做智能体RL的人很有参考价值。原文
10:30arXiv cs.AI@Thiago Thomas, Gabriel de Oliveira Ramos, Felipe Meneguzzi多智能体目标识别要求观测者联合推断哪些智能体组成团队及其目标,假设空间随团队划分和目标数量组合增长。MAGR-BB采用共享的团队与目标条件策略作为评分模型,在因子化分支定界搜索中评估假设。在受控的多智能体Blocksworld基准测试中,MAGR-BB在整个轨迹中与穷举搜索返回相同的最高排名假设,同时将假设实例化数量减少几个数量级,累计识别运行时间大幅降低。论文MAGR-BBBlocksworld多智能体强化学习分支定界推荐理由:这篇论文提出了MAGR-BB,用强化学习和分支定界让多智能体目标识别又快又准,Blocksworld上效果拔群。原文
09:44arXiv cs.AI@Peng Xu, Sijia Chen, Junzhuo Li, Xuming Hu论文提出SCPO,一种价值无关的奖励塑造方法,通过对比同组内成功与失败轨迹的中间步骤,为失败步骤恢复正向信用。该方法解决了因轨迹最终结果不同导致语义相似的中间步骤获得相反信用的问题。在ALFWorld基准上,1.5B参数模型达到93.7%±4.1%成功率;在WebShop基准上达到74.8%±2.0%成功率,提升集中在最难的多步任务。论文SCPOALFWorldWebShop强化学习智能体推荐理由:这篇论文解决了强化学习给LLM智能体分配奖励时的一个逻辑问题:相同意思的步骤因轨迹成败拿了相反信用。SCPO在ALFWorld和WebShop上跑分挺高,最难的步骤提升明显。原文
09:38arXiv cs.AI@Ke Zhao, Zixiang Di, Hong Qian, Xiang Shu, Yaolin Wen, Qitao Shi, Bingdong Li, Xingyu Lu, Xiangfeng Wang, Jun Zhou, Ke Tang, Yang YuMiniOpt是一种强化学习框架,采用“推理-建模-求解”范式来优化问题。其OptReward奖赏函数通过分层分数结构联合评估建模与求解,避免专家演示依赖。在少于10B参数的模型中,MiniOpt系列取得最高平均求解精度(SA)。MiniOpt-3B在多种优化类型和任务领域展示强泛化能力,代码已开源。AI模型MiniOpt强化学习优化开源模型LLM推荐理由:想用小型模型搞定各种优化问题?MiniOpt用3B参数就做到了不错的效果,而且代码开源随便玩。原文
05:27Fireworks AI@FireworksAI_HQ精选Fireworks AI 宣布攻克了在前沿模型上使用强化学习时,保持训练和推理数值完全一致(零KLD)的难题。他们将该解决方案作为托管服务提供,首发支持 GLM 5.2 模型。这项服务确保端到端数值对齐,简化了RL训练流程。AI产品Fireworks AIGLM 5.2强化学习推理优化推荐理由:Fireworks AI 把强化学习里最头疼的数值一致性问题搞定了,还能直接托管GLM 5.2,省去自己搭基础设施的麻烦。原文
00:49berryxia@berryxia77°Qwen团队直接训练了一个语言世界模型Qwen-AgentWorld,核心目标是从头建模环境而非仅训练Agent行为。模型需预测终端输出、网页变化及代码执行后状态,而非单纯学习操作。利用该模型作为模拟器进行可控Sim RL,在某些任务上模拟训练的Agent性能甚至超过真实环境训练的Agent。此外,仅做环境预测的预训练能力可直接迁移到多轮Agent任务,在多个benchmark上取得显著提升,包括未见领域。Qwen开源了35B MoE版本及对应基准。AI模型QwenQwen-AgentWorld世界模型Agent强化学习推荐理由:通义千问出了个新模型,不是教Agent怎么动,而是先让模型懂环境变化。用模拟环境练出的Agent反而比真实环境练的还强,还开源了35B版,值得看看。原文
22:39阿里通义 Qwen@Alibaba_Qwen精选71°Qwen-AgentWorld是阿里Qwen团队发布的原生语言世界模型,在单一模型中模拟MCP、搜索、终端、SWE、Web、OS和Android共7种智能体环境。环境建模被设定为训练目标,而非后处理适配。在AgentWorldBench基准上,该模型超越Claude Opus 4.8和GPT-5.4。可控SimRL利用此世界模型作为环境进行强化学习,效果超过在真实环境中训练。仅通过预测环境的预热训练,无需智能体特定微调,预测知识即可零微调迁移至智能体任务。AI模型Qwen-AgentWorld智能体世界模型模拟环境强化学习推荐理由:阿里Qwen造了个能模拟7种环境的AgentWorld,在AgentWorldBench上干掉了Claude和GPT最新版,训练智能体不用真实环境也能更强,零微调迁移呢。原文
15:24Stanford AI Lab@StanfordAILab精选斯坦福团队提出SPIRAL框架,通过强化学习让LLM在测试时自动协调顺序推理、并行采样和结果聚合。与传统只优化单链推理的训练方法不同,SPIRAL使用set RL训练模型生成对聚合器集体有用的多个候选答案,并用标准RL优化聚合器从这些候选合成改进答案。该方法使所有测试时计算维度(长链、并行样本、聚合)端到端可学习,缩小训练与部署的差距。AI模型SPIRALLLM强化学习推理模型测试时计算扩展推荐理由:斯坦福团队发了SPIRAL,让LLM训练时就学会并行采样和聚合答案,不是只会单链思考,更符合实际推理场景。原文
11:44arXiv cs.LG@Anurag Akula, Satheesh K. Perepu, Abhishek Sarkar, Kaushik DeyASALT是一种针对多智能体强化学习(MARL)的迁移学习方法,解决了源域和目标域观测空间与全局状态空间维度不匹配的问题。该方法引入观测层和状态层适配器,将目标域观测和全局状态映射到共享嵌入空间,支持跨异构域的策略迁移。在标准基准环境的多个配置上,ASALT在合作场景中相比现有基线提升了样本效率和全局回报,但效果依赖于源域与目标域的不匹配程度。实验还表明ASALT能缓解负迁移,这是跨不同观测和动作空间域迁移时的常见障碍。AI模型ASALTMARL多智能体迁移学习强化学习推荐理由:ASALT这个新方法解决了MARL中状态空间维度不同时知识迁移的难题,实验效果不错,值得做多智能体迁移学习的同学看看。原文
00:24elvis@omarsar0Prime Intellect发布博客,介绍在GLM-5模型上运行大规模强化学习(RL)所需的基础设施组件,包括数据管道、训练调度和分布式计算。文章详细解释了如何用1万亿token训练RL智能体,并开源部分工具链。该方法旨在降低自改进智能体的开发门槛。技巧GLM-5Prime Intellect强化学习智能体基础设施推荐理由:想自己搞RL训练?这份Prime Intellect的博客手把手告诉你需要哪些基础设施,连GLM-5上的1T token训练都给你讲清楚了。原文
15:27marktechpost@Asif Razzaq精选Prime Intellect 发布了 prime-rl 0.6.0,这是一个用于异步强化学习的开源框架,支持训练万亿参数规模的 Mixture-of-Experts (MoE) 模型。该框架在 SWE 编程任务上训练了 GLM-5 模型,序列长度达到 131k,单步训练时间低于 5 分钟,并实现了 256 个并行 rollout。所有这些性能建立在 28 个 NVIDIA H200 节点上,优化技术包括 FP8 推理、Wide Expert Parallelism、预填充/解码分离以及 3-D 并行(FSDP、EP、CP)。AI产品prime-rlGLM-5Prime Intellect强化学习MoE8 个信源在谈推荐理由:Prime Intellect 新开源的 prime-rl 0.6.0,专为训练万亿参数 MoE 模型的强化学习设计。他们在 SWE 任务上用 GLM-5 跑到 131k 序列长度,速度还很快,想了解大规模 RL 训练优化的可以看看。原文
12:56arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman72°SPIRAL提出一种新训练框架,让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件,在推理任务中扩展效果优于GRPO,最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。论文SPIRALGRPO推理模型强化学习链式思维推荐理由:这篇论文的SPIRAL方法教模型自己学会并行思考再汇总,比单纯加大顺序推理高效11倍,效果还更好,值得做推理扩展的朋友看看。原文
12:36arXiv: OpenAI@Cong Han, Xiaohan Lan, Haibo Qiu, Yujie ZhongAIR方法通过扩展强化学习训练,使MLLMs具备自适应交错推理能力,专门处理代码增强的复杂数值计算任务。该方法包含两阶段冷启动数据构建、强化学习数据集筛选策略,以及基于群约束奖励函数的自适应工具调用策略。在评测基准上,平均性能提升6.1个百分点,其中交错推理样本准确率提高9.9个百分点,工具调用成功率超过95%。论文代码和数据集已开源。论文AIRMLLMsOpenAI o3交错推理强化学习推荐理由:这篇论文让MLLMs学会用代码做数值推理,准确率涨了6个点,工具调用成功率超95%,代码开源可复现。原文
18:27Decoder@Maximilian SchreinerOpenAI研究者发现,通过强化学习对诚实性、可修正性等理想行为特质进行训练,模型在跨领域表现提升。在健康数据上训练后,欺骗检测能力也增强,模型在53个基准中的44个上得分更高。该方法与Anthropic的基于宪法的对齐方法不同。研究显示少量特质训练即可带来广泛安全改善。论文OpenAIAI安全强化学习对齐基准测试10 个信源在谈推荐理由:OpenAI发现,只给模型一点点“诚实”训练,它就在53个测试里赢了44个,连健康领域的骗术都能识破。和Anthropic的路数不一样,挺有意思。原文
10:16arXiv cs.AI@Yuhan Liu, Pei Fu, Hang Li, Yukun Qi, Chao Jiang, Jingwen Fu, Zhen Liu, Bin Qin, Zhenbo Luo, Jian Luan, Jingmin XinELVA提出一种基于规则强化学习(RLVR)的框架,解决对比学习在多模态检索中的“粒度盲视”问题——模型忽略查询中的粒度信息。该方法不依赖奖励模型,通过规则奖励联合优化负样本排序并扩大正负样本相似度差距。为精准评估,作者引入新基准MRBench,专用于多粒度查询场景。ELVA在标准检索基准上达到最先进结果,并在MRBench上实现13.1%的提升。AI模型ELVA多模态检索强化学习MRBench细粒度推荐理由:这篇论文提出了ELVA,用强化学习思路改多模态检索,解决了对比学习忽略粒度的问题,还在新基准MRBench上提了13.1%,值得做检索方向的人看看。原文
09:47arXiv cs.LG@Xiaoran Liu, Istvan David论文提出基于模型驱动的方法,通过混合遗传算法(结合全局搜索和启发式局部搜索)自动生成多组相似但不同的强化学习训练环境。方法将变异和约束表达为模型变换,由先进模型变换引擎操作化搜索过程。在野火缓解场景和课程学习(依赖环境家族的学习范式)中验证了方法的有效性。原型工具将手工开发环境家族的错误率降低,提升了可扩展性。论文强化学习模型驱动课程学习环境家族遗传算法推荐理由:这篇论文提出用模型驱动和遗传算法自动生成RL环境变体,省去手写大量相似环境的麻烦,野火场景验证过,做课程学习的可以看看。原文
09:42arXiv cs.LG@Federica Filippini许多计算与网络系统的决策问题可转化为带性能约束的成本最小化问题。传统强化学习(RL)通过加权惩罚将成本和约束违规合并为标量奖励,但权重需手动调整。本文提出MAMO(多智能体多目标约束优化系统),利用多智能体RL将奖励权重选择作为学习问题。MAMO将任务执行与目标设计解耦,为动态环境中约束优化问题的自主RL方案迈出第一步。论文MAMO多智能体强化学习约束优化推荐理由:这篇论文提出MAMO,用多智能体RL自动调权重,解决约束优化中手动调参难题。原文
09:38arXiv: DeepSeek@Minsu Kim, Se-Young Yun研究者提出利用Lean证明助手作为符号过程预言机,在训练中提供细粒度的策略级验证反馈,弥补了传统RLVR仅依赖二元验证信号的不足。通过将证明尝试解析为策略序列,Lean能标记局部正确步骤及最早失败步骤,从而产生基于类型论的密集可验证信用信号。在STP-Lean和DeepSeek-Prover-V1.5上的实验表明,策略级监督在多数设置下优于仅结果监督的基线,在MiniF2F和ProofNet基准上取得提升。该工作展示了符号证明助手不仅可在评估时用作验证器,还能在训练中充当过程级奖励预言机。AI模型Lean定理证明强化学习形式验证推理模型推荐理由:这篇论文用Lean在定理证明训练中引入细粒度过程奖励,比只判对错的强化学习效果好,在MiniF2F和ProofNet上都有提升。原文
07:10OpenAI@OpenAIOpenAI在真实对话中训练模型,通过强化学习强化诚实、谦逊、开放纠正、公平和关怀人类福祉等特质。该训练覆盖健康、科学、教育等12个领域,旨在提升模型的对齐与安全性。方法基于RLHF改进,专注对话场景中的具体行为。AI模型OpenAI强化学习AI安全对齐模型训练10 个信源在谈推荐理由:OpenAI训练模型时不止看能力,还用强化学习专门教它诚实、谦逊、愿意接受批评,覆盖12个领域,对AI安全性很有意义。原文
06:22OpenAI@OpenAI73°OpenAI发布新研究,旨在训练AI模型将有益和安全行为推广到训练范围之外的新领域,并在压力下维持。该方法聚焦于让模型具备广泛且持久的利他性,论文名为《Beneficial RL》。研究通过强化学习框架,让模型学会在更长、更高风险的任务中自主保持符合人类意图的行为,而不仅是拟合训练数据。相关论文和代码已发布在alignment.openai.com/beneficial-rl/。论文OpenAIAI安全智能体强化学习10 个信源在谈推荐理由:OpenAI发了篇新论文,研究怎么让AI在超出训练场景的长期任务里也乖乖做好事,关心AI安全的朋友可以看看。原文
02:03MIT CSAIL@MIT_CSAILMIT CSAIL 研究员 Alexander Amini 主讲的深度学习免费课程已更新至 2026 版。该课程涵盖监督学习、无监督学习和强化学习三大范式。第 5 讲专门讲解三者的核心差异。课程完全免费开放,适合入门到进阶学习者。技巧MIT深度学习免费课程监督学习强化学习推荐理由:MIT 出了新版深度学习免费课,Alexander Amini 讲第 5 讲,把监督、无监督、强化学习的区别掰开揉碎,想入门可以看看。原文
10:54arXiv cs.LG@Haipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong TangSTARE针对GRPO等强化学习训练中策略熵崩溃问题,提出令牌级信用分配纠偏方法。通过惊讶度分位数识别熵关键令牌子集,选择性重加权其有效优势,并引入目标熵闭环门控实现稳定熵调节。在1.5B至32B规模模型及短CoT、长CoT、多轮工具使用三类任务中,STARE可维持数千步稳定训练。在AIME24和AIME25上,STARE准确率较DAPO等基线提升4%-8%,反射令牌和响应长度同步增长,表明探索-利用平衡得到改善。代码已开源。论文STAREGRPO策略熵强化学习推理模型推荐理由:STARE解决了GRPO训练中策略熵崩溃的老问题,在AIME数学竞赛上比DAPO高4-8个点,代码也开源了,搞RL训练的同学可以试试。原文
10:47arXiv cs.AI@Giuseppe Gabriele, Fabio Pavirani, Seyed Soroush Karimi Madahi, Chris Develder一篇论文提出决策聚焦强化学习(DF-RL)框架,用于控制电动汽车充电,解决未知离开时间问题。该方法将预测器与充电策略进行端到端联合训练,相比不使用离开时间预测的RL方法,总奖励提升14%,未供应能量(因车辆提前离开导致充电失败)减少55%。实验基于历史数据模拟,验证了在不确定性下充电决策质量的改善。论文强化学习电动汽车充电预测器决策聚焦推荐理由:这个论文搞了个新训练方式,让预测器和充电策略一起优化,结果充电失败少了一半多,值得做RL调度的看看。原文
10:04arXiv cs.LG@Parisa Lotfibagha, Kristen Miller, William J. Gallagher, Elizabeth B. Selden, Muge Capan该研究提出Contextual Markov Decision Process (CMDP)模型,基于22,154名2型糖尿病患者的电子健康记录(EHR)数据,优化不同亚群的随访间隔。通过主成分分析和聚类,识别出低风险和高风险两个亚群。模型建议:未测量实验室值时1个月内随访;指标升高或近期住院时最多3个月;血糖控制稳定时6至12个月,高风险患者间隔更短。与类似美国糖尿病协会的固定策略相比,高合并症亚群成本降低34.8%,低合并症亚群成本降低6.4%。论文CMDPT2DEHR强化学习慢性病管理推荐理由:这篇论文用CMDP模型和真实患者数据证明,个性化随访间隔比固定方案更省钱、更有效,高成本人群能省三成多。原文
10:03arXiv cs.LG@Hugo O. Garcés, Alejandro J. Rojas, Bernardo A. Hernández, Andrés Escalona, Jonathan M. Palma, Md. Rezwan Parvez, Bhushan Gopaluni, Sirish L. Shah该论文在非线性系统上比较了无模型控制器在虚假数据注入和拒绝服务攻击下的性能,分析了四种RL奖励类型(Lyapunov、指数、渐进、线性)的准确率、成本和弹性。结果显示Lyapunov奖励以低跟踪误差实现了最佳弹性,指数模式在中等训练条件下提供良好折衷,渐进和线性奖励收敛更快但鲁棒性较差。RL-MPC模型表现出强稳态弹性但需更长训练时间,RL-PID控制器训练时间显著缩短。PPO相比DDPG显著降低了KPI方差。论文PPODDPGLyapunov奖励强化学习信息物理系统安全推荐理由:这篇论文对比了四种强化学习奖励函数在抵御网络攻击时的表现,发现Lyapunov奖励弹性最好,PPO比DDPG方差更低,做控制器设计可以拿来参考。原文
09:47arXiv cs.AI@Ruishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽的问题。研究观察到GRPO中梯度集中在高奖励方差任务上,基于Popoviciu上界。提出RODS方法,利用进度奖励方差作为零成本边界检测器,无需额外推理。通过技能对齐重采样管道合成新多轮变体,维护动态缓冲池。从400个人工种子开始,保持约800样本活跃池,达到与17K样本离线管道相当性能,轨迹数减少约20倍。论文RODSGRPO工具使用智能体强化学习数据合成推荐理由:这篇论文用奖励方差自动发现困难样本并生成新数据,训练效率比静态数据高20倍,特别适合多轮工具智能体场景。原文
09:26arXiv: DeepSeek@Ruiqi Lai, Dakai An, Wei Gao, Ju Huang, Siran Yang, Jiamang Wang, Lin Qu, Dmitrii Ustiugov, Wei Wang精选DiT强化学习后训练需要数千块高端GPU,成本极高。Spotlight系统利用Spot GPU(价格低69-77%)和种子探索技术,将训练速度提升4倍。该系统通过带子集探索规划器最大化奖励方差,弹性序列并行在预emption时毫秒级恢复,并采用拉取式调度平衡负载。在Qwen-Image后训练中,Spotlight达到相同验证分数的成本降低1.4-6.4倍,在DeepSeek-OCR和Geneval数据集上512×512和1280×1280分辨率下图像质量更优。论文SpotlightDiTQwen-Image强化学习扩散模型推荐理由:Spotlight系统用便宜的Spot GPU做DiT强化学习后训练,成本降低1.4-6.4倍,训练快4倍,适合预算有限的团队。原文
09:22arXiv: DeepSeek@Siddharth Aphale, Kelly Liu一项研究分析了SFT(监督微调)的过度训练对RLVR(基于强化学习的验证)训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型,发现SFT深度增加时,预RL的pass@1上升,但GRPO的pass@10从0.806降至0.481(3种子均值,n=20)。预RL熵与GRPO结果正相关(ρ=+0.69)。研究者提出一个两阶段诊断方法,结合预RL熵筛选和早期GRPO熵监控,可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。论文Qwen2.5-Coder-3BDeepSeek-Coder-6.7BSFTRLVR强化学习推荐理由:这篇论文发现了SFT过训练会搞崩GRPO训练的秘密,还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。原文
03:58Sebastian Raschka@rasbt精选VibeCoder采用Qwen2.5-Coder-3B作为基座,通过一套后训练技术栈大幅提升性能。技术报告显示其包含高信号合成数据、多重推理路径、2阶段SFT(先广训再难长推理样本)、MGPO(MaxEnt-Guided Policy Optimization)强化学习等9个关键组件。训练顺序为Math RL→Code RL→STEM RL,并采用了单64k长上下文RL而非渐进扩展。最后通过奖励短正确轨迹来提升效率而不牺牲准确性。论文VibeCoderQwen2.5-Coder-3B推理模型强化学习微调推荐理由:Sebastian Raschka分析了VibeCoder的后训练秘诀,基于3B模型就取得惊人成绩,训练顺序和RL方法值得参考。原文
12:00arXiv cs.LG@Steve Halley, Maurício Gruppi该论文提出SD-ZFS框架,将S2V-DQN架构适配到最小零强制集(ZFS)问题。ZFS是NP难的图着色问题,在图神经网络、网络控制和逻辑电路设计中有应用。在多个不同结构的图数据集上训练模型,评估其泛化、扩展和迁移能力。与最优解和贪心启发式相比,SD-ZFS框架展示了有效性。论文SD-ZFSS2V-DQN强化学习图神经网络零强制集推荐理由:这篇论文告诉你如何用强化学习搞定一个NP难的图论问题,效果比传统贪心算法好,适合研究图神经网络和组合优化的人。原文
10:46arXiv cs.AI@Ankita Samaddar, Sandeep Neema, Daniel Balasubramanian, Xenofon Koutsoukos本文提出一种基于模仿学习的策略学习技术,用于在部分可观测的自主网络环境中预测红方(攻击方)动作。该方法适用于离散状态和离散动作的强化学习智能体。集成到使用行为树和LECs的神经符号自主防御智能体后,该方法能有效处理不同红方策略,并在多种模拟场景下实现高预测准确率。论文模仿学习强化学习AI安全智能体网络防御推荐理由:这篇论文用模仿学习帮防守方预测攻击者行动,在模拟网络攻防场景下准确率很高。原文