Muon优化器在矩阵分解中避免慢鞍点动力学,实现平衡解

Muon learns balanced solutions in matrix factorization without slow saddle-to-saddle dynamics

精选理由

如果你关注优化器理论,这篇论文揭示了Muon比梯度下降更快的机制,并且给出了一个只需两步就对齐参数的学习率调度,很实用。

AI 摘要

该论文研究Muon优化器在矩阵分解问题中的参数动力学,发现其与梯度下降有三点关键差异:1)Muon避免从小初始化开始的慢鞍点动力学,以相同速率学习所有顶模,较小模先收敛;2)即使学习率超过局部损失尖锐度的临界阈值,Muon仍保持稳定,允许通过指数学习率退火实现快速收敛;3)Muon流守恒矩阵√(P^T P)-√(Q^T Q),而梯度流守恒P^T P - Q^T Q。从零初始化时,两者都能找到平衡解。论文还推导了简单设定下的对齐速率,并利用Muon结构属性设计了仅需两步达到近完美对齐的学习率调度。

AI 翻译 · 中文

该论文研究Muon优化器在矩阵分解问题中的参数动力学,发现其与梯度下降有三点关键差异:1)Muon避免从小初始化开始的慢鞍点动力学,以相同速率学习所有顶模,较小模先收敛;2)即使学习率超过局部损失尖锐度的临界阈值,Muon仍保持稳定,允许通过指数学习率退火实现快速收敛;3)Muon流守恒矩阵√(P^T P)-√(Q^T Q),而梯度流守恒P^T P - Q^T Q。从零初始化时,两者都能找到平衡解。论文还推导了简单设定下的对齐速率,并利用Muon结构属性设计了仅需两步达到近完美对齐的学习率调度。

arXiv cs.LGMatrix factorization (i.e., problems of the form $\min_{\mathbf{P},\mathbf{Q}} \|\mathbf{M}^\star - \mathbf{P}^\top\mathbf{Q}\|_\mathrm{F}^2$) is a minimal learning problem that exhibits both nonlinear parameter dynamics