精选理由
AdamW天天用但理论有坑,这篇论文把收敛性列为开放问题,还给出了新分析框架。做LLM训练优化的人该看看。
AdamW是训练大型语言模型的默认优化器,但其理论主要建立在有限方差假设上。实证发现LLM预训练中的随机梯度噪声通常是重尾的。近期Lion、Muon等符号优化器已取得重尾收敛率,AdaGrad也能在重尾噪声下收敛。本文提出一个开放问题:AdamW能否在相同重尾假设下收敛?作者证明了一个正加权度量基准,并通过走廊下界机制表明分母记忆可能隐藏大梯度。
AI 翻译 · 中文
AdamW是训练大型语言模型的默认优化器,但其理论主要建立在有限方差假设上。实证发现LLM预训练中的随机梯度噪声通常是重尾的。近期Lion、Muon等符号优化器已取得重尾收敛率,AdaGrad也能在重尾噪声下收敛。本文提出一个开放问题:AdamW能否在相同重尾假设下收敛?作者证明了一个正加权度量基准,并通过走廊下界机制表明分母记忆可能隐藏大梯度。
AdamW is the de facto optimizer for training large language models (LLMs), yet the theory behind it still lives mostly in finite-variance regimes. This is increasingly unsatisfying, as empirical evidence indicates that s…