Dri-MED：应对偏好漂移与约束的线性上下文赌博机算法

精选理由

在线推荐系统常面临用户偏好漂移和基线约束的挑战，Dri-MED 为这类问题提供了理论扎实且效果显著的解决方案，做推荐系统或在线学习的团队值得关注其算法设计。

AI 摘要

本文提出了一种名为 Dri-MED 的算法，用于解决线性上下文随机多臂赌博机问题，其中学习者需为具有个性化偏好的用户群体提供推荐，且上下文分布随时间漂移。在实用假设下，该问题被简化为具有异方差非平稳噪声的平稳均值线性赌博机。算法还确保每次决策的平均奖励不低于基线策略，实现了与约束感知次优间隙相关的实例相关遗憾界，并具有理论保证的约束违反次数。数值实验表明，Dri-MED 显著优于忽略漂移和偏好结构的保守基线方法。

AI 翻译 · 中文

arXiv cs.LGWe consider a variant of the linear contextual stochastic multi-armed bandits, where the learner must provide recommendations to a group of users, each having its personalized preference vector, and in the presence of co…

阅读原文