13:22arXiv cs.LG@Florian Hübler, Kai Lion, Antonio Orvieto, Niao HeMuown优化器将权重矩阵分解为行幅度和未归一化的方向变量,分别用Adam和Muon更新。研究表明,Muown的方向更新等价于对归一化方向的黎曼步长,而幅度仅调制角度步长,这解释了其稳定性。基于此提出的AngularMuown直接优化归一化方向,并使用可调度的角度乘子与径向幅度更新解耦。在modded nanoGPT速度竞赛中,初步版AngularMuown领先每优化器类别。在Qwen2-0.5B和1.1B参数MoE模型上的实验证实该算法可扩展至更大规模。论文MuownAngularMuown优化器Transformer预训练论文推荐理由:想加速Transformer预训练?这篇论文把优化器角度步长显式化,新方法AngularMuown在nanoGPT竞赛中领先,还在0.5B和1.1B模型上验证了效果。原文