论文精选

Random Reshuffling 理论证明首次超越随机梯度下降

Random Reshuffling Dominates Stochastic Gradient Descent

精选理由

这篇论文终于从理论上证明了机器学习中常用的 Random Reshuffling 比经典 SGD 强,对优化算法感兴趣的朋友值得一看。

AI 摘要

一篇论文证明了 Random Reshuffling(RR)在光滑凸优化中,对于任意合理的步长和有限轮次,其收敛速度均严格优于标准 SGD。此前理论认为 RR 的步长需小于 1/n 阈值才能收敛,导致其最优理论速率低于 SGD。新结果首次从数学上解决了这一长期悬而未决的问题。

AI 翻译 · 中文

一篇论文证明了 Random Reshuffling(RR)在光滑凸优化中,对于任意合理的步长和有限轮次,其收敛速度均严格优于标准 SGD。此前理论认为 RR 的步长需小于 1/n 阈值才能收敛,导致其最优理论速率低于 SGD。新结果首次从数学上解决了这一长期悬而未决的问题。

arXiv cs.LGStochastic Gradient Descent ($\textsf{SGD}$) is one of the most classical optimization algorithms with favorable theoretical guarantees, yet the practical implementation of $\textsf{SGD}$ differs subtly from its well-kno