精选理由
这篇论文提出MAMO,用多智能体RL自动调权重,解决约束优化中手动调参难题。
许多计算与网络系统的决策问题可转化为带性能约束的成本最小化问题。传统强化学习(RL)通过加权惩罚将成本和约束违规合并为标量奖励,但权重需手动调整。本文提出MAMO(多智能体多目标约束优化系统),利用多智能体RL将奖励权重选择作为学习问题。MAMO将任务执行与目标设计解耦,为动态环境中约束优化问题的自主RL方案迈出第一步。
AI 翻译 · 中文
许多计算与网络系统的决策问题可转化为带性能约束的成本最小化问题。传统强化学习(RL)通过加权惩罚将成本和约束违规合并为标量奖励,但权重需手动调整。本文提出MAMO(多智能体多目标约束优化系统),利用多智能体RL将奖励权重选择作为学习问题。MAMO将任务执行与目标设计解耦,为动态环境中约束优化问题的自主RL方案迈出第一步。
Many decision-making problems in computing and networking systems can be naturally formulated as cost-minimization problems under performance constraints. In dynamic environments, reinforcement learning (RL) is often use…