Muon在重尾非凸优化中的理论优势:最优样本复杂度

Free Heavy-Tailed Lunch for Muon: A Theoretical Justification of Empirical Success

精选理由

Muon为何能训练Transformer?

AI 摘要

Muon和Scion等非欧几里得优化方法在训练Transformer时表现优异,但其理论优势一直未明确。本研究证明在重尾非凸场景(随机梯度p阶中心矩有界,p∈(1,2])下,非欧几里得方法在更强的平稳性度量下达到最优样本复杂度,而欧几里得方法有额外维度依赖。对于m×n矩阵,Muon在核范数下找到ε-稳定点仅需O(min{m,n}Δ1L/ε^2(σ/ε)^{p/(p-1)})个样本,可吸收重尾噪声而无额外维度开销。实验在大型语言模型上验证了理论,并表明其他Schatten几何在某些设置下也可与Muon竞争。

AI 翻译 · 中文

Muon和Scion等非欧几里得优化方法在训练Transformer时表现优异,但其理论优势一直未明确。本研究证明在重尾非凸场景(随机梯度p阶中心矩有界,p∈(1,2])下,非欧几里得方法在更强的平稳性度量下达到最优样本复杂度,而欧几里得方法有额外维度依赖。对于m×n矩阵,Muon在核范数下找到ε-稳定点仅需O(min{m,n}Δ1L/ε^2(σ/ε)^{p/(p-1)})个样本,可吸收重尾噪声而无额外维度开销。实验在大型语言模型上验证了理论,并表明其他Schatten几何在某些设置下也可与Muon竞争。

arXiv cs.LGNon-Euclidean optimisation methods with matrix-valued updates, such as Muon and Scion, have recently shown strong empirical performance for training Transformer models, yet their theoretical advantages over Euclidean met