AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:PPO×
6月18日
10:03
10:03arXiv cs.LG@Hugo O. Garcés, Alejandro J. Rojas, Bernardo A. Hernández, Andrés Escalona, Jonathan M. Palma, Md. Rezwan Parvez, Bhushan Gopaluni, Sirish L. Shah
该论文在非线性系统上比较了无模型控制器在虚假数据注入和拒绝服务攻击下的性能,分析了四种RL奖励类型(Lyapunov、指数、渐进、线性)的准确率、成本和弹性。结果显示Lyapunov奖励以低跟踪误差实现了最佳弹性,指数模式在中等训练条件下提供良好折衷,渐进和线性奖励收敛更快但鲁棒性较差。RL-MPC模型表现出强稳态弹性但需更长训练时间,RL-PID控制器训练时间显著缩短。PPO相比DDPG显著降低了KPI方差。
论文PPODDPGLyapunov奖励强化学习信息物理系统安全

推荐理由:这篇论文对比了四种强化学习奖励函数在抵御网络攻击时的表现,发现Lyapunov奖励弹性最好,PPO比DDPG方差更低,做控制器设计可以拿来参考。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
10:36
10:36arXiv cs.LG@Anna Zykova-Myzina, Timofei Gritsaev, Daniil Tiapkin, Nikita Morozov
该论文将近端策略优化(PPO)应用于生成流网络(GFlowNet)框架下的离散概率分布采样。作者推导了GFlowNet的等价策略梯度算法,并实验探索了基线训练和优势估计等环节。这是首次成功将PPO应用于GFlowNet,在合成能量和分子图生成等基准上,PPO相比标准GFlowNet训练目标提升了收敛速度和数据效率。
论文PPOGFlowNet离散采样策略梯度强化学习

推荐理由:这篇论文把PPO用到了GFlowNet上,收敛更快、数据效率更高,做离散采样研究的可以看看。
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月29日
13:01
13:01arXiv: DeepSeek@Zihang Li, Rui Zhou, Yingcheng Shi, Wenhan Yu, Zhewen Tan, Zixiang Liu, Zeming Li, Binhua Li, Yongbin Li, Tong Yang, Jieping Ye
72°
ESPO(Early-Stopping Proximal Policy Optimization)是一种针对大语言模型强化学习训练的新方法,能在推理轨迹中早期检测到错误步骤并提前终止生成。传统PPO算法在模型犯错后仍会强制生成直到最大步长,浪费计算资源并污染优势估计。ESPO通过实时计算基于logits的代理遗憾值,在累积遗憾显著超过估计值时终止轨迹,并将截断轨迹视为吸收失败状态,无需额外奖励模型或人工标注。在DeepSeek-R1-Distill-Qwen-7B的数学推理训练中,ESPO在AIME 2024、AMC 2023和MATH-500上均超越PPO,同时累计节省超过20%的生成token。
论文强化学习PPO数学推理训练效率DeepSeek

推荐理由:做LLM强化学习训练的团队终于有了一个能省算力又提效果的方法——ESPO在数学推理任务上不仅性能更好,还省了20%的token,训练成本敏感的团队值得一试。
原文
5月20日
10:51
10:51arXiv: DeepSeek@Ali Mohammadi Esfahani, Nafiseh Kahani, Samuel A. Ajila
精选
研究人员提出一个基于强化学习的框架,将提示词优化建模为序列决策问题。PPO代理通过混合动作空间(直接生成、遗传变异、语义重写)迭代改进提示词,并利用单元测试反馈的奖励信号驱动优化。在MBPP+、HumanEval+和APPS基准上,使用CodeT5+、CodeLLaMA和DeepSeek-Coder作为冻结代码生成器,PPO代理在MBPP+的500任务测试集上分别达到57.58%、64.80%和85.50%的严格Pass@1,优于EPiC、Reflexion和随机混合方法。软Pass@1分别达到67.90%、73.10%和88.20%。结果表明,带形状奖励的强化学习能显著提升LLM代码生成的功能正确性。
论文提示词优化强化学习代码生成PPOLLM

推荐理由:做LLM代码生成或提示词工程的开发者,这个框架直接解决了提示词敏感性问题——用RL自动优化提示词,比手动调参高效得多,建议关注其混合动作空间和奖励设计。
原文
精选全部日报登录