AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:策略梯度×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
10:36
10:36arXiv cs.LG@Anna Zykova-Myzina, Timofei Gritsaev, Daniil Tiapkin, Nikita Morozov
该论文将近端策略优化(PPO)应用于生成流网络(GFlowNet)框架下的离散概率分布采样。作者推导了GFlowNet的等价策略梯度算法,并实验探索了基线训练和优势估计等环节。这是首次成功将PPO应用于GFlowNet,在合成能量和分子图生成等基准上,PPO相比标准GFlowNet训练目标提升了收敛速度和数据效率。
论文PPOGFlowNet离散采样策略梯度强化学习

推荐理由:这篇论文把PPO用到了GFlowNet上,收敛更快、数据效率更高,做离散采样研究的可以看看。
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月9日
09:37
09:37arXiv cs.AI@Minyoung Hwang, Seokhyun Lee, Changhee Lee
精选
本文提出一种新方法,用于解释黑盒深度语言模型的预测决策。该方法通过选择一小部分信息丰富的输入单词来生成解释,解决了现有方法在推理效率、黑盒兼容性和语言结构可解释性三方面的不足。研究将单词选择建模为摊销优化问题,使用REINFORCE策略梯度进行训练,无需访问模型内部状态。同时,通过整合图结构知识,确保所选单词子集在语言上连贯且符合人类直觉。实验表明,该方法在多个数据集和模型架构上优于传统黑盒方法和梯度基方法。
论文可解释性黑盒模型单词选择策略梯度语言结构

推荐理由:做NLP模型可解释性研究的团队,终于有了一个兼顾效率、黑盒兼容和语言直觉的方案——无需模型内部信息,直接输出可理解的单词子集解释,值得一试。
原文
6月3日
10:25
10:25arXiv cs.AI@Anthony GX-Chen, Ankit Anand, Gheorghe Comanici, Zaheer Abbas, Eser Aygün, David Smalling, Shibl Mourad, Doina Precup, André Barreto, Mark Rowland
经典强化学习追求确定性策略以最大化标量奖励期望,但在语言模型微调或科学发现等现代应用中,多样性至关重要。现有方法如熵正则化或多样性奖励常需脆弱权衡,牺牲性能换取随机性。本文提出将奖励函数视为分布而非标量,通过非线性的动作集目标函数,使校准的行为多样性自然涌现,且不牺牲期望奖励。在上下文赌博机设定下,推导了原则性的梯度估计器,证明该框架泛化了策略梯度与动作集方法。实验表明,该方法为需要行为广度的复杂RL任务提供了稳健的理论替代方案。
论文强化学习多样性奖励不确定性策略梯度上下文赌博机

推荐理由:做RL研究或语言模型微调的团队,如果正为多样性-性能权衡头疼,这篇论文给出了一个理论干净的新框架——把奖励不确定性当作多样性来源,不用额外调参。值得细读。
原文
5月19日
11:14
11:14arXiv cs.LG@Yevhen Shcherbinin, Arina Redina, Maxim Kalpin, Vlad Kochetov
精选
该论文研究了多智能体策略梯度方法在多个稳定纳什均衡中如何选择的问题。作者提出通过“盆地进入概率”来分析均衡选择,并发现“同伴学习修正”是关键的均衡选择机制:在局部对齐条件下,该修正能增加进入目标稳定纳什集(如帕累托优势均衡)吸引盆地的概率。论文证明了有限展开的Meta-MAPG更新可分解为普通策略梯度加上自身学习和同伴学习修正,且同伴学习修正会改变原始游戏的零更新点。通过退火修正,可在进入盆地后恢复普通策略梯度动力学,并继承局部稳定纳什收敛保证。实验在Stag Hunt、迭代囚徒困境和初步的神经策略协调环境中验证了该观点,显示对手感知更新能增加进入合作盆地的概率。
论文多智能体策略梯度均衡选择纳什均衡对手感知

推荐理由:这篇论文为多智能体强化学习中的均衡选择问题提供了理论解释和实用机制,做多智能体系统或博弈论应用的开发者值得关注,尤其是对合作均衡有需求的团队可以看看如何通过对手感知修正引导策略收敛。
原文
5月12日
19:11
19:11arXiv cs.LG@Alex DeWeese, Guannan Qu
这篇论文重新审视了受限策略类下的标准策略梯度方法,指出其容易陷入次优临界点,根本原因是传统策略梯度仅基于单步Q函数,具有短视性。作者提出了一种广义的k步策略梯度方法,通过耦合k步时间窗口内的随机性,能够逃离受限策略类MDP中的短视局部最优。理论证明该方法能以指数级性能逼近最优确定性策略,并且投影梯度下降和镜像下降在O(1/T)迭代次数内即可达到该指数级保证。该工作避免了常见的分布不匹配因子,在状态聚合、部分可观测合作多智能体等场景中具有重要应用价值。
论文强化学习策略梯度理论突破多智能体

推荐理由:本文从理论层面揭示了策略梯度方法短视性的根源,并提出了具有指数级收敛保证的改进方案。对强化学习从业者而言,这是一项重要的理论突破,有望推动受限策略类在复杂多智能体等场景的实际应用。
原文
精选全部日报登录