多目标强化学习中学习公平帕累托最优策略

精选理由

这篇论文提出了在MORL中兼顾最优和公平的新方法，用GGF和三种算法生成多样化的公平策略，比传统单策略方法更灵活。

AI 摘要

该论文研究多目标强化学习（MORL）中的公平性优化问题。传统单策略方法使用广义基尼福利函数（GGF）只能处理固定用户偏好，缺乏策略多样性。作者证明对于凹分段线性福利函数（如GGF），公平策略仍属于凸覆盖集（CCS）。提出三种新算法：集成GGF的多策略多目标Q学习（MOQL）、状态增强多策略MOQL及随机策略扩展。在多个领域实验表明，该方法能学习一组适应不同用户偏好的公平帕累托最优策略。

AI 翻译 · 中文

arXiv cs.LGFairness is an important aspect of decision-making in multi-objective reinforcement learning (MORL), where policies must ensure both optimality and equity across multiple, potentially conflicting objectives. While single…

阅读原文