12:40arXiv cs.LG@Udvas Das, Waris Radji, Debabrota Basu, Odalric-Ambrym Maillard精选本文提出了一种名为 Dri-MED 的算法,用于解决线性上下文随机多臂赌博机问题,其中学习者需为具有个性化偏好的用户群体提供推荐,且上下文分布随时间漂移。在实用假设下,该问题被简化为具有异方差非平稳噪声的平稳均值线性赌博机。算法还确保每次决策的平均奖励不低于基线策略,实现了与约束感知次优间隙相关的实例相关遗憾界,并具有理论保证的约束违反次数。数值实验表明,Dri-MED 显著优于忽略漂移和偏好结构的保守基线方法。论文在线学习上下文赌博机非平稳环境约束优化推荐系统推荐理由:在线推荐系统常面临用户偏好漂移和基线约束的挑战,Dri-MED 为这类问题提供了理论扎实且效果显著的解决方案,做推荐系统或在线学习的团队值得关注其算法设计。原文
09:22arXiv cs.AI@Alexandre Belloni, Yan Chen, Yehua Wei该论文提出了一种在线上下文潘多拉魔盒模型,用于自适应查询和选择LLM API。决策者在每个周期观察请求上下文,面临两阶段决策:查询阶段顺序调用API并产生输出相关成本,选择阶段从生成的输出中选一个部署并观察下游奖励。与经典模型不同,该模型输出反馈结构不直接揭示奖励。研究者直接建模保留索引,结合广义矩估计和UCB置信界,实现了维度相关的√T累积遗憾。论文LLM API自适应查询潘多拉魔盒模型在线学习遗憾分析推荐理由:LLM API调用成本高、选择困难,这篇论文为开发者提供了理论驱动的自适应查询策略,做模型编排或API调度的团队可以直接参考其方法优化成本与效果。原文
19:11arXiv: DeepSeek@Emile Anand, Abdullah Ateyeh, Xinyuan Cao, Max Dabagia论文研究了连续潜在上下文(continuous latent context)如何帮助Transformer模型实现在线决策与学习。研究者构造了恒定深度的Transformer,通过少量潜在上下文令牌存储算法状态,成功实现了加权多数算法和Q-learning两种在线决策过程。实验表明,使用多课程目标训练的小型GPT-2风格模型,在长合成在线预测序列上表现优于Qwen-3-14B和DeepSeek-V3等更大更复杂的LLM。该工作为Transformer在需要长期自适应交互的场景中提供了一种简单有效的持续状态机制。论文在线学习Transformer潜在上下文Q-learning加权多数算法推荐理由:该工作通过理论构造和实验验证,说明了连续潜在上下文可作为Transformer在线学习的通用状态载体,为构建能长期自适应交互的轻量级AI系统提供了新思路。原文