12:40arXiv cs.LG@Udvas Das, Waris Radji, Debabrota Basu, Odalric-Ambrym Maillard精选本文提出了一种名为 Dri-MED 的算法,用于解决线性上下文随机多臂赌博机问题,其中学习者需为具有个性化偏好的用户群体提供推荐,且上下文分布随时间漂移。在实用假设下,该问题被简化为具有异方差非平稳噪声的平稳均值线性赌博机。算法还确保每次决策的平均奖励不低于基线策略,实现了与约束感知次优间隙相关的实例相关遗憾界,并具有理论保证的约束违反次数。数值实验表明,Dri-MED 显著优于忽略漂移和偏好结构的保守基线方法。论文在线学习上下文赌博机非平稳环境约束优化推荐系统推荐理由:在线推荐系统常面临用户偏好漂移和基线约束的挑战,Dri-MED 为这类问题提供了理论扎实且效果显著的解决方案,做推荐系统或在线学习的团队值得关注其算法设计。原文