Muon优化器在矩阵分解中避免慢鞍点动力学，实现平衡解

精选理由

如果你关注优化器理论，这篇论文揭示了Muon比梯度下降更快的机制，并且给出了一个只需两步就对齐参数的学习率调度，很实用。

AI 摘要

该论文研究Muon优化器在矩阵分解问题中的参数动力学，发现其与梯度下降有三点关键差异：1）Muon避免从小初始化开始的慢鞍点动力学，以相同速率学习所有顶模，较小模先收敛；2）即使学习率超过局部损失尖锐度的临界阈值，Muon仍保持稳定，允许通过指数学习率退火实现快速收敛；3）Muon流守恒矩阵√(P^T P)-√(Q^T Q)，而梯度流守恒P^T P - Q^T Q。从零初始化时，两者都能找到平衡解。论文还推导了简单设定下的对齐速率，并利用Muon结构属性设计了仅需两步达到近完美对齐的学习率调度。

AI 翻译 · 中文

arXiv cs.LGMatrix factorization (i.e., problems of the form $\min_{\mathbf{P},\mathbf{Q}} \|\mathbf{M}^\star - \mathbf{P}^\top\mathbf{Q}\|_\mathrm{F}^2$) is a minimal learning problem that exhibits both nonlinear parameter dynamics…

阅读原文