10:32arXiv cs.LG@Vladimir Bogachev, Vladimir Aletov, Alexander Molozhavenko, Sergei Kudriashov, Maxim RakhubaMuon优化器通过谱范数约束执行最速下降,但仅适用于矩阵。Tensorion将这一方法扩展到高阶张量,基于线性最小化预言机(LMO)在张量范数球上进行优化。其LMO通过自适应选择展开矩阵可高效计算,且当限制为二阶张量时精确恢复Muon。在张量计算机视觉任务中,Tensorion相比Adam和现有张量感知基线展现出更优的收敛行为与更稳定的梯度更新。论文TensorionMuon优化器张量论文推荐理由:想优化张量参数?这篇论文把Muon优雅地推广到高阶张量,实验比Adam更稳健。原文
10:31arXiv cs.LG@Alexander Hägele, Alejandro Hernández-Cano, Atli Kosson, Martin Jaggi论文提出MD Decoupling优化器修改方法,将每个权重分解为超球面上的固定范数方向与可学习的每行每列幅度增益,以解耦幅度和方向的更新。该方法与Adam和Muon等基础优化器兼容,消除了对权重衰减和warmup的需求。实验表明,MD Decoupling在宽模型和大型MoE模型上均优于精心调优的基线,并允许跨模型宽度直接迁移学习率而不需重新调参。论文MD DecouplingAdamMuonMoE优化器推荐理由:这篇论文提出了一种简单通用的优化器改进方案,能解耦权重幅度和方向,消除权重衰减和warmup,在Adam和Muon上都有效,值得关注。原文
11:04arXiv cs.LG@Kaiyue Wen, Xingyu Dang, Kaifeng Lyu, Tengyu Ma, Percy Liang论文提出Hyperball,一种简单优化器包装器,固定权重矩阵及其更新量的Frobenius范数,解决Muon等优化器在大模型(如1.2B参数Qwen3模型)上相比AdamW加速效果衰减的问题。实验表明,Muon+Hyperball实现20-30% token等效加速,并改善学习率在宽度和深度上的迁移。该方法受理论启发:权重衰减导致平衡权重范数仅依赖于超参数,进而决定角度学习率。论文HyperballMuonQwen3优化器预训练推荐理由:Muon在大模型上加速效果缩水?Hyperball通过固定矩阵范数,让Muon在1.2B Qwen3上又快了20-30%,还更好调参。原文
11:11arXiv cs.LG@Florian Hübler, Thomas Pethick, Suvrit SraMuon和Scion等非欧几里得优化方法在训练Transformer时表现优异,但其理论优势一直未明确。本研究证明在重尾非凸场景(随机梯度p阶中心矩有界,p∈(1,2])下,非欧几里得方法在更强的平稳性度量下达到最优样本复杂度,而欧几里得方法有额外维度依赖。对于m×n矩阵,Muon在核范数下找到ε-稳定点仅需O(min{m,n}Δ1L/ε^2(σ/ε)^{p/(p-1)})个样本,可吸收重尾噪声而无额外维度开销。实验在大型语言模型上验证了理论,并表明其他Schatten几何在某些设置下也可与Muon竞争。论文MuonScion优化算法理论分析非凸优化推荐理由:Muon为何能训练Transformer?原文
11:02arXiv cs.AI@Tianyu Ruan, Fengzhuo Zhang, Shuche Wang, Shihua Zhang精选72°Muon 作为预训练大语言模型和视觉分类器的新兴优化器,其效率优势已超过 Adam 和 SGD,但特征学习优势尚不明确。本文通过鲁棒性和迁移性视角研究 Muon 的特征学习优势:在损坏图像和文本上评估预训练模型,发现 Muon 学到的特征比 Adam 和 SGD 更鲁棒,且这种优势体现在更大的 logit 边际上。通过下游任务的线性分类器或微调,Muon 的特征迁移效果更好,这得益于隐藏状态的有效秩更高。在含多组件的分类问题中,论文从理论上证明了 Muon 能获得更大边际和更高有效秩。论文Muon优化器鲁棒性迁移学习特征学习推荐理由:Muon 优化器在鲁棒性和迁移性上全面超越 Adam,做预训练或迁移学习的团队值得关注,尤其是需要模型对噪声和下游任务更鲁棒的场景。原文
10:28arXiv cs.LG@Xianliang Li, Zihan Zhang, Weiyang Liu, Han BaoMuon优化器在大语言模型训练中表现出色,但其动量机制的理论作用一直不明确。本文通过将动量视为一种频谱滤波器,证明了在信号加扰动的梯度模型下,动量能有效抑制扰动并保留主导信号,从而扩大两者间的频谱间隙。这种间隙的扩大稳定了传递给Muon正交化步骤的矩阵的奇异子空间,使更新更可靠。实验表明,先应用动量再进行正交化比反向顺序或移除动量能更好地对齐梯度信号。该理论为理解其他基于矩阵的优化器中动量的作用提供了起点。论文Muon动量频谱滤波优化器大语言模型训练推荐理由:做LLM训练或优化器研究的团队,这篇论文把Muon动量从玄学变成了可解释的频谱滤波机制,看完能直接指导你调参——先降噪再正交化,效果更稳。原文
10:11arXiv cs.AI@Thomas Massena, Corentin Friedrich, Mathieu Serrurier精选这篇论文提出了一种数据驱动的优化器设计方法,能够根据梯度与激活统计信息动态选择每层神经网络的最优更新几何结构,在SGD和Muon之间自适应插值。该方法基于单步随机特征回归代理模型推导出闭式准则,并整合参数级预处理,可恢复SGD、Muon、Adam和MuAdam作为特例。通过高效计算策略,仅增加约3%的运行开销,在三种训练场景中与Muon和AdamW的最佳性能持平或更优。这项工作为超越静态几何的优化器设计开辟了新路径。论文优化器自适应几何MuonSGDAdam推荐理由:这篇论文解决了优化器几何结构固定、无法适应问题几何的问题,做深度学习训练和优化器研究的开发者可以直接参考其自适应方法,有望提升模型训练效率。原文
11:05arXiv cs.LG@Abdurakhmon Sadiev, Artavazd Maranjyan, Ivan Ilin, Peter Richtárik精选Muon 作为 AdamW 的替代方案在神经网络训练中表现出色,但基于线性最小化预言机(LMO)的方法通常采用同步训练,在异构分布式系统中受限于慢速工作节点。本文提出 Ringmaster LMO,一种异步 LMO 动量方法,借鉴 Ringmaster ASGD 的延迟阈值思想,通过丢弃过时梯度实现最优时间复杂度。该方法在广义 (L0, L1)-光滑性下建立了收敛保证,并开发了参数无关的变体。实验表明,在随机二次问题和 NanoChat 语言模型预训练中,Ringmaster LMO 在异构环境下显著优于同步和异步基线。论文异步训练分布式系统优化算法MuonLMO推荐理由:分布式训练团队终于有了异步 LMO 方法的理论保障——Ringmaster LMO 解决了异构集群中慢节点拖累效率的问题,做大规模预训练或异构系统优化的开发者值得关注。原文