带子线性噪声探测的在线凸优化

精选理由

探测可降低在线学习遗憾

AI 摘要

论文研究在线凸优化（OCO），其中学习者每轮使用一次δ-噪声成对探测比较两个点的损失。主要定理给出遗憾界O(min{√(dT ln T), (dT ln T)/(k|1-2δ|)})，该界对T、k和δ紧。即使探测预算k子线性，也能改进最坏情况遗憾。对于专家设置，在有限决策集上得到完全紧的速率。分析通过方差减少效应和二阶指数权重方法揭示探测收益。

AI 翻译 · 中文

arXiv cs.LGWe study Online Convex Optimization (OCO) over a convex set $K\subseteq \mathbb R^d$, where in each round $t$ the learner selects $x_t\in K$ and then observes a convex loss $f_t:K\to[0,1]$, with the goal of minimizing re…

阅读原文