精选理由
这篇论文提出了一种简单通用的优化器改进方案,能解耦权重幅度和方向,消除权重衰减和warmup,在Adam和Muon上都有效,值得关注。
论文提出MD Decoupling优化器修改方法,将每个权重分解为超球面上的固定范数方向与可学习的每行每列幅度增益,以解耦幅度和方向的更新。该方法与Adam和Muon等基础优化器兼容,消除了对权重衰减和warmup的需求。实验表明,MD Decoupling在宽模型和大型MoE模型上均优于精心调优的基线,并允许跨模型宽度直接迁移学习率而不需重新调参。
AI 翻译 · 中文
论文提出MD Decoupling优化器修改方法,将每个权重分解为超球面上的固定范数方向与可学习的每行每列幅度增益,以解耦幅度和方向的更新。该方法与Adam和Muon等基础优化器兼容,消除了对权重衰减和warmup的需求。实验表明,MD Decoupling在宽模型和大型MoE模型上均优于精心调优的基线,并允许跨模型宽度直接迁移学习率而不需重新调参。
Modern neural network training relies on optimizers such as Adam and Muon which act on each weight matrix as a single object. Yet every weight matrix carries two distinct quantities -- a \emph{magnitude} and a \emph{dire…