13:15arXiv cs.AI@Dingzhi Yu, Hongyi Tao, Yuanyu Wan, Luo Luo, Lijun ZhangAdamW是训练大型语言模型的默认优化器,但其理论主要建立在有限方差假设上。实证发现LLM预训练中的随机梯度噪声通常是重尾的。近期Lion、Muon等符号优化器已取得重尾收敛率,AdaGrad也能在重尾噪声下收敛。本文提出一个开放问题:AdamW能否在相同重尾假设下收敛?作者证明了一个正加权度量基准,并通过走廊下界机制表明分母记忆可能隐藏大梯度。论文AdamWLLM重尾噪声优化器理论推荐理由:AdamW天天用但理论有坑,这篇论文把收敛性列为开放问题,还给出了新分析框架。做LLM训练优化的人该看看。原文
10:59arXiv cs.AI@Dayal Singh Kalra, Maissam Barkeshli精选本文提出一个框架,通过三个指标量化超参数迁移效果:缩放律拟合质量、外推鲁棒性、参数化导致的渐近损失惩罚。研究发现,μP 相比标准参数化(SP)在 AdamW 训练中的优势,主要源于嵌入层学习率的最大化。SP 中嵌入层学习率是瓶颈,导致训练不稳定;将其按宽度因子放大以匹配 μP 可显著平滑训练并改善迁移。此外,权重衰减改善缩放律拟合,但在固定 token-per-parameter 设置下会损害外推鲁棒性。论文超参数迁移嵌入层学习率μPAdamW训练稳定性推荐理由:做 LLM 训练调参的团队会关心——嵌入层学习率是 μP 优势的关键,直接放大 SP 的嵌入层学习率就能获得类似效果,值得在实验中验证。原文