精选理由
如果你关注优化器理论,这篇论文揭示了Muon比梯度下降更快的机制,并且给出了一个只需两步就对齐参数的学习率调度,很实用。
该论文研究Muon优化器在矩阵分解问题中的参数动力学,发现其与梯度下降有三点关键差异:1)Muon避免从小初始化开始的慢鞍点动力学,以相同速率学习所有顶模,较小模先收敛;2)即使学习率超过局部损失尖锐度的临界阈值,Muon仍保持稳定,允许通过指数学习率退火实现快速收敛;3)Muon流守恒矩阵√(P^T P)-√(Q^T Q),而梯度流守恒P^T P - Q^T Q。从零初始化时,两者都能找到平衡解。论文还推导了简单设定下的对齐速率,并利用Muon结构属性设计了仅需两步达到近完美对齐的学习率调度。
AI 翻译 · 中文
该论文研究Muon优化器在矩阵分解问题中的参数动力学,发现其与梯度下降有三点关键差异:1)Muon避免从小初始化开始的慢鞍点动力学,以相同速率学习所有顶模,较小模先收敛;2)即使学习率超过局部损失尖锐度的临界阈值,Muon仍保持稳定,允许通过指数学习率退火实现快速收敛;3)Muon流守恒矩阵√(P^T P)-√(Q^T Q),而梯度流守恒P^T P - Q^T Q。从零初始化时,两者都能找到平衡解。论文还推导了简单设定下的对齐速率,并利用Muon结构属性设计了仅需两步达到近完美对齐的学习率调度。
Matrix factorization (i.e., problems of the form $\min_{\mathbf{P},\mathbf{Q}} \|\mathbf{M}^\star - \mathbf{P}^\top\mathbf{Q}\|_\mathrm{F}^2$) is a minimal learning problem that exhibits both nonlinear parameter dynamics…