精选理由
做LLM训练或优化器研究的团队,这篇论文把Muon动量从玄学变成了可解释的频谱滤波机制,看完能直接指导你调参——先降噪再正交化,效果更稳。
Muon优化器在大语言模型训练中表现出色,但其动量机制的理论作用一直不明确。本文通过将动量视为一种频谱滤波器,证明了在信号加扰动的梯度模型下,动量能有效抑制扰动并保留主导信号,从而扩大两者间的频谱间隙。这种间隙的扩大稳定了传递给Muon正交化步骤的矩阵的奇异子空间,使更新更可靠。实验表明,先应用动量再进行正交化比反向顺序或移除动量能更好地对齐梯度信号。该理论为理解其他基于矩阵的优化器中动量的作用提供了起点。
AI 翻译 · 中文
Muon优化器在大语言模型训练中表现出色,但其动量机制的理论作用一直不明确。本文通过将动量视为一种频谱滤波器,证明了在信号加扰动的梯度模型下,动量能有效抑制扰动并保留主导信号,从而扩大两者间的频谱间隙。这种间隙的扩大稳定了传递给Muon正交化步骤的矩阵的奇异子空间,使更新更可靠。实验表明,先应用动量再进行正交化比反向顺序或移除动量能更好地对齐梯度信号。该理论为理解其他基于矩阵的优化器中动量的作用提供了起点。
Muon has recently demonstrated strong empirical performance in large language model training, but the theoretical role of momentum in Muon remains unclear. Existing analyses of Muon either remove momentum to study spectr…