精选理由
想加速Transformer预训练?这篇论文把优化器角度步长显式化,新方法AngularMuown在nanoGPT竞赛中领先,还在0.5B和1.1B模型上验证了效果。
Muown优化器将权重矩阵分解为行幅度和未归一化的方向变量,分别用Adam和Muon更新。研究表明,Muown的方向更新等价于对归一化方向的黎曼步长,而幅度仅调制角度步长,这解释了其稳定性。基于此提出的AngularMuown直接优化归一化方向,并使用可调度的角度乘子与径向幅度更新解耦。在modded nanoGPT速度竞赛中,初步版AngularMuown领先每优化器类别。在Qwen2-0.5B和1.1B参数MoE模型上的实验证实该算法可扩展至更大规模。
AI 翻译 · 中文
Muown优化器将权重矩阵分解为行幅度和未归一化的方向变量,分别用Adam和Muon更新。研究表明,Muown的方向更新等价于对归一化方向的黎曼步长,而幅度仅调制角度步长,这解释了其稳定性。基于此提出的AngularMuown直接优化归一化方向,并使用可调度的角度乘子与径向幅度更新解耦。在modded nanoGPT速度竞赛中,初步版AngularMuown领先每优化器类别。在Qwen2-0.5B和1.1B参数MoE模型上的实验证实该算法可扩展至更大规模。
Matrix-aware optimizers such as Muon and Muown have recently shown strong empirical performance for pre-training Transformers. In particular, Muown separates each weight matrix into row magnitudes and an un-normalized di…