11:11arXiv cs.LG@Simone Di Gregorio, Anupam Gupta, Stefano Leonardi, Matteo Russo论文研究在线凸优化(OCO),其中学习者每轮使用一次δ-噪声成对探测比较两个点的损失。主要定理给出遗憾界O(min{√(dT ln T), (dT ln T)/(k|1-2δ|)}),该界对T、k和δ紧。即使探测预算k子线性,也能改进最坏情况遗憾。对于专家设置,在有限决策集上得到完全紧的速率。分析通过方差减少效应和二阶指数权重方法揭示探测收益。论文OCOPairwise Probes噪声探测遗憾界凸优化推荐理由:探测可降低在线学习遗憾原文