09:42arXiv cs.LG@Federica Filippini许多计算与网络系统的决策问题可转化为带性能约束的成本最小化问题。传统强化学习(RL)通过加权惩罚将成本和约束违规合并为标量奖励,但权重需手动调整。本文提出MAMO(多智能体多目标约束优化系统),利用多智能体RL将奖励权重选择作为学习问题。MAMO将任务执行与目标设计解耦,为动态环境中约束优化问题的自主RL方案迈出第一步。论文MAMO多智能体强化学习约束优化推荐理由:这篇论文提出MAMO,用多智能体RL自动调权重,解决约束优化中手动调参难题。原文
12:40arXiv cs.LG@Udvas Das, Waris Radji, Debabrota Basu, Odalric-Ambrym Maillard精选本文提出了一种名为 Dri-MED 的算法,用于解决线性上下文随机多臂赌博机问题,其中学习者需为具有个性化偏好的用户群体提供推荐,且上下文分布随时间漂移。在实用假设下,该问题被简化为具有异方差非平稳噪声的平稳均值线性赌博机。算法还确保每次决策的平均奖励不低于基线策略,实现了与约束感知次优间隙相关的实例相关遗憾界,并具有理论保证的约束违反次数。数值实验表明,Dri-MED 显著优于忽略漂移和偏好结构的保守基线方法。论文在线学习上下文赌博机非平稳环境约束优化推荐系统推荐理由:在线推荐系统常面临用户偏好漂移和基线约束的挑战,Dri-MED 为这类问题提供了理论扎实且效果显著的解决方案,做推荐系统或在线学习的团队值得关注其算法设计。原文
10:22arXiv cs.LG@Dhruv Sarkar, Abhishek Sinha精选本文针对对抗性约束下的在线凸优化(COCO)问题,提出了一种基于投影的简单算法。对于强凸损失,该算法同时实现了 O(log T) 的遗憾和 O(log T) 的累积约束违反(CCV),相比此前最优的 O(√T log T) CCV 实现了指数级改进。对于凸损失,算法将 CCV 从 O(√T log T) 降至 O(√T),同时保持最优 O(√T) 遗憾。关键创新在于利用自收缩曲线的几何结果,该技术可能具有独立研究价值。论文在线凸优化约束优化自收缩性遗憾分析投影算法推荐理由:约束在线优化是机器学习中的核心问题,这篇论文用简洁的投影算法大幅降低了累积约束违反,做在线学习或凸优化理论的研究者值得关注,其自收缩性技巧可能启发更多改进。原文