09:22arXiv cs.AI@Alexandre Belloni, Yan Chen, Yehua Wei该论文提出了一种在线上下文潘多拉魔盒模型,用于自适应查询和选择LLM API。决策者在每个周期观察请求上下文,面临两阶段决策:查询阶段顺序调用API并产生输出相关成本,选择阶段从生成的输出中选一个部署并观察下游奖励。与经典模型不同,该模型输出反馈结构不直接揭示奖励。研究者直接建模保留索引,结合广义矩估计和UCB置信界,实现了维度相关的√T累积遗憾。论文LLM API自适应查询潘多拉魔盒模型在线学习遗憾分析推荐理由:LLM API调用成本高、选择困难,这篇论文为开发者提供了理论驱动的自适应查询策略,做模型编排或API调度的团队可以直接参考其方法优化成本与效果。原文
10:22arXiv cs.LG@Dhruv Sarkar, Abhishek Sinha精选本文针对对抗性约束下的在线凸优化(COCO)问题,提出了一种基于投影的简单算法。对于强凸损失,该算法同时实现了 O(log T) 的遗憾和 O(log T) 的累积约束违反(CCV),相比此前最优的 O(√T log T) CCV 实现了指数级改进。对于凸损失,算法将 CCV 从 O(√T log T) 降至 O(√T),同时保持最优 O(√T) 遗憾。关键创新在于利用自收缩曲线的几何结果,该技术可能具有独立研究价值。论文在线凸优化约束优化自收缩性遗憾分析投影算法推荐理由:约束在线优化是机器学习中的核心问题,这篇论文用简洁的投影算法大幅降低了累积约束违反,做在线学习或凸优化理论的研究者值得关注,其自收缩性技巧可能启发更多改进。原文