多目标强化学习中学习公平帕累托最优策略

Learning Fair Pareto-Optimal Policies in Multi-Objective Reinforcement Learning

精选理由

这篇论文提出了在MORL中兼顾最优和公平的新方法,用GGF和三种算法生成多样化的公平策略,比传统单策略方法更灵活。

AI 摘要

该论文研究多目标强化学习(MORL)中的公平性优化问题。传统单策略方法使用广义基尼福利函数(GGF)只能处理固定用户偏好,缺乏策略多样性。作者证明对于凹分段线性福利函数(如GGF),公平策略仍属于凸覆盖集(CCS)。提出三种新算法:集成GGF的多策略多目标Q学习(MOQL)、状态增强多策略MOQL及随机策略扩展。在多个领域实验表明,该方法能学习一组适应不同用户偏好的公平帕累托最优策略。

AI 翻译 · 中文

该论文研究多目标强化学习(MORL)中的公平性优化问题。传统单策略方法使用广义基尼福利函数(GGF)只能处理固定用户偏好,缺乏策略多样性。作者证明对于凹分段线性福利函数(如GGF),公平策略仍属于凸覆盖集(CCS)。提出三种新算法:集成GGF的多策略多目标Q学习(MOQL)、状态增强多策略MOQL及随机策略扩展。在多个领域实验表明,该方法能学习一组适应不同用户偏好的公平帕累托最优策略。

arXiv cs.LGFairness is an important aspect of decision-making in multi-objective reinforcement learning (MORL), where policies must ensure both optimality and equity across multiple, potentially conflicting objectives. While single