10:03arXiv cs.LG@Hugo O. Garcés, Alejandro J. Rojas, Bernardo A. Hernández, Andrés Escalona, Jonathan M. Palma, Md. Rezwan Parvez, Bhushan Gopaluni, Sirish L. Shah该论文在非线性系统上比较了无模型控制器在虚假数据注入和拒绝服务攻击下的性能,分析了四种RL奖励类型(Lyapunov、指数、渐进、线性)的准确率、成本和弹性。结果显示Lyapunov奖励以低跟踪误差实现了最佳弹性,指数模式在中等训练条件下提供良好折衷,渐进和线性奖励收敛更快但鲁棒性较差。RL-MPC模型表现出强稳态弹性但需更长训练时间,RL-PID控制器训练时间显著缩短。PPO相比DDPG显著降低了KPI方差。论文PPODDPGLyapunov奖励强化学习信息物理系统安全推荐理由:这篇论文对比了四种强化学习奖励函数在抵御网络攻击时的表现,发现Lyapunov奖励弹性最好,PPO比DDPG方差更低,做控制器设计可以拿来参考。原文
10:36arXiv cs.LG@Anna Zykova-Myzina, Timofei Gritsaev, Daniil Tiapkin, Nikita Morozov该论文将近端策略优化(PPO)应用于生成流网络(GFlowNet)框架下的离散概率分布采样。作者推导了GFlowNet的等价策略梯度算法,并实验探索了基线训练和优势估计等环节。这是首次成功将PPO应用于GFlowNet,在合成能量和分子图生成等基准上,PPO相比标准GFlowNet训练目标提升了收敛速度和数据效率。论文PPOGFlowNet离散采样策略梯度强化学习推荐理由:这篇论文把PPO用到了GFlowNet上,收敛更快、数据效率更高,做离散采样研究的可以看看。原文
13:01arXiv: DeepSeek@Zihang Li, Rui Zhou, Yingcheng Shi, Wenhan Yu, Zhewen Tan, Zixiang Liu, Zeming Li, Binhua Li, Yongbin Li, Tong Yang, Jieping Ye72°ESPO(Early-Stopping Proximal Policy Optimization)是一种针对大语言模型强化学习训练的新方法,能在推理轨迹中早期检测到错误步骤并提前终止生成。传统PPO算法在模型犯错后仍会强制生成直到最大步长,浪费计算资源并污染优势估计。ESPO通过实时计算基于logits的代理遗憾值,在累积遗憾显著超过估计值时终止轨迹,并将截断轨迹视为吸收失败状态,无需额外奖励模型或人工标注。在DeepSeek-R1-Distill-Qwen-7B的数学推理训练中,ESPO在AIME 2024、AMC 2023和MATH-500上均超越PPO,同时累计节省超过20%的生成token。论文强化学习PPO数学推理训练效率DeepSeek推荐理由:做LLM强化学习训练的团队终于有了一个能省算力又提效果的方法——ESPO在数学推理任务上不仅性能更好,还省了20%的token,训练成本敏感的团队值得一试。原文
10:51arXiv: DeepSeek@Ali Mohammadi Esfahani, Nafiseh Kahani, Samuel A. Ajila精选研究人员提出一个基于强化学习的框架,将提示词优化建模为序列决策问题。PPO代理通过混合动作空间(直接生成、遗传变异、语义重写)迭代改进提示词,并利用单元测试反馈的奖励信号驱动优化。在MBPP+、HumanEval+和APPS基准上,使用CodeT5+、CodeLLaMA和DeepSeek-Coder作为冻结代码生成器,PPO代理在MBPP+的500任务测试集上分别达到57.58%、64.80%和85.50%的严格Pass@1,优于EPiC、Reflexion和随机混合方法。软Pass@1分别达到67.90%、73.10%和88.20%。结果表明,带形状奖励的强化学习能显著提升LLM代码生成的功能正确性。论文提示词优化强化学习代码生成PPOLLM推荐理由:做LLM代码生成或提示词工程的开发者,这个框架直接解决了提示词敏感性问题——用RL自动优化提示词,比手动调参高效得多,建议关注其混合动作空间和奖励设计。原文