10:36arXiv cs.LG@Arnaud Lequen, Clément Legrand-Lixon, Léo SaulièresPQLRM算法将Pareto Q-Learning与奖励机器(Reward Machines)结合,维护向量化Q估计来逼近Pareto前沿。实验表明,相比朴素PQL基线,PQLRM在奖励机器编码的非马尔可夫任务中收敛更快。它还能合成QRM无法获得的Pareto最优策略,提升了多目标强化学习的样本效率。论文PQLRMReward MachinesPareto Q-Learning多目标强化学习推荐理由:这篇论文提出了PQLRM,把Pareto Q-Learning和奖励机器结合起来,在多目标任务里比基线收敛更快,还能找到普通方法找不到的最优策略。原文
12:00arXiv cs.LG@Umer Siddique, Peilang Li, Yongcan Cao该论文研究多目标强化学习(MORL)中的公平性优化问题。传统单策略方法使用广义基尼福利函数(GGF)只能处理固定用户偏好,缺乏策略多样性。作者证明对于凹分段线性福利函数(如GGF),公平策略仍属于凸覆盖集(CCS)。提出三种新算法:集成GGF的多策略多目标Q学习(MOQL)、状态增强多策略MOQL及随机策略扩展。在多个领域实验表明,该方法能学习一组适应不同用户偏好的公平帕累托最优策略。论文MORLGGF多目标强化学习公平性帕累托最优推荐理由:这篇论文提出了在MORL中兼顾最优和公平的新方法,用GGF和三种算法生成多样化的公平策略,比传统单策略方法更灵活。原文