10:36arXiv cs.LG@Arnaud Lequen, Clément Legrand-Lixon, Léo SaulièresPQLRM算法将Pareto Q-Learning与奖励机器(Reward Machines)结合,维护向量化Q估计来逼近Pareto前沿。实验表明,相比朴素PQL基线,PQLRM在奖励机器编码的非马尔可夫任务中收敛更快。它还能合成QRM无法获得的Pareto最优策略,提升了多目标强化学习的样本效率。论文PQLRMReward MachinesPareto Q-Learning多目标强化学习推荐理由:这篇论文提出了PQLRM,把Pareto Q-Learning和奖励机器结合起来,在多目标任务里比基线收敛更快,还能找到普通方法找不到的最优策略。原文