全部 AI 动态 · AI 热点

arXiv cs.AI@Anthony GX-Chen, Ankit Anand, Gheorghe Comanici, Zaheer Abbas, Eser Aygün, David Smalling, Shibl Mourad, Doina Precup, André Barreto, Mark Rowland

经典强化学习追求确定性策略以最大化标量奖励期望，但在语言模型微调或科学发现等现代应用中，多样性至关重要。现有方法如熵正则化或多样性奖励常需脆弱权衡，牺牲性能换取随机性。本文提出将奖励函数视为分布而非标量，通过非线性的动作集目标函数，使校准的行为多样性自然涌现，且不牺牲期望奖励。在上下文赌博机设定下，推导了原则性的梯度估计器，证明该框架泛化了策略梯度与动作集方法。实验表明，该方法为需要行为广度的复杂RL任务提供了稳健的理论替代方案。

论文强化学习多样性奖励不确定性策略梯度上下文赌博机

推荐理由：做RL研究或语言模型微调的团队，如果正为多样性-性能权衡头疼，这篇论文给出了一个理论干净的新框架——把奖励不确定性当作多样性来源，不用额外调参。值得细读。

原文

5月19日

11:14

arXiv cs.LG@Yevhen Shcherbinin, Arina Redina, Maxim Kalpin, Vlad Kochetov

精选

该论文研究了多智能体策略梯度方法在多个稳定纳什均衡中如何选择的问题。作者提出通过“盆地进入概率”来分析均衡选择，并发现“同伴学习修正”是关键的均衡选择机制：在局部对齐条件下，该修正能增加进入目标稳定纳什集（如帕累托优势均衡）吸引盆地的概率。论文证明了有限展开的Meta-MAPG更新可分解为普通策略梯度加上自身学习和同伴学习修正，且同伴学习修正会改变原始游戏的零更新点。通过退火修正，可在进入盆地后恢复普通策略梯度动力学，并继承局部稳定纳什收敛保证。实验在Stag Hunt、迭代囚徒困境和初步的神经策略协调环境中验证了该观点，显示对手感知更新能增加进入合作盆地的概率。

论文多智能体策略梯度均衡选择纳什均衡对手感知

推荐理由：这篇论文为多智能体强化学习中的均衡选择问题提供了理论解释和实用机制，做多智能体系统或博弈论应用的开发者值得关注，尤其是对合作均衡有需求的团队可以看看如何通过对手感知修正引导策略收敛。

原文

5月12日

19:11

arXiv cs.LG@Alex DeWeese, Guannan Qu

这篇论文重新审视了受限策略类下的标准策略梯度方法，指出其容易陷入次优临界点，根本原因是传统策略梯度仅基于单步Q函数，具有短视性。作者提出了一种广义的k步策略梯度方法，通过耦合k步时间窗口内的随机性，能够逃离受限策略类MDP中的短视局部最优。理论证明该方法能以指数级性能逼近最优确定性策略，并且投影梯度下降和镜像下降在O(1/T)迭代次数内即可达到该指数级保证。该工作避免了常见的分布不匹配因子，在状态聚合、部分可观测合作多智能体等场景中具有重要应用价值。

论文强化学习策略梯度理论突破多智能体

推荐理由：本文从理论层面揭示了策略梯度方法短视性的根源，并提出了具有指数级收敛保证的改进方案。对强化学习从业者而言，这是一项重要的理论突破，有望推动受限策略类在复杂多智能体等场景的实际应用。

原文