Pareto Q-Learning with Reward Machines：多目标强化学习算法

精选理由

这篇论文提出了PQLRM，把Pareto Q-Learning和奖励机器结合起来，在多目标任务里比基线收敛更快，还能找到普通方法找不到的最优策略。

AI 摘要

PQLRM算法将Pareto Q-Learning与奖励机器（Reward Machines）结合，维护向量化Q估计来逼近Pareto前沿。实验表明，相比朴素PQL基线，PQLRM在奖励机器编码的非马尔可夫任务中收敛更快。它还能合成QRM无法获得的Pareto最优策略，提升了多目标强化学习的样本效率。

AI 翻译 · 中文

arXiv cs.LGWe present Pareto Q-Learning with Reward Machines (PQLRM), a multi-objective reinforcement learning algorithm for tasks whose reward structure is specified by a set of reward machines (RMs). PQLRM combines Pareto Q-Learn…

阅读原文