12:10arXiv cs.LG@Mark Rhee, Jamie Simon, Dhruva Karkada该论文研究Muon优化器在矩阵分解问题中的参数动力学,发现其与梯度下降有三点关键差异:1)Muon避免从小初始化开始的慢鞍点动力学,以相同速率学习所有顶模,较小模先收敛;2)即使学习率超过局部损失尖锐度的临界阈值,Muon仍保持稳定,允许通过指数学习率退火实现快速收敛;3)Muon流守恒矩阵√(P^T P)-√(Q^T Q),而梯度流守恒P^T P - Q^T Q。从零初始化时,两者都能找到平衡解。论文还推导了简单设定下的对齐速率,并利用Muon结构属性设计了仅需两步达到近完美对齐的学习率调度。论文Muon矩阵分解优化器动力学平衡解推荐理由:如果你关注优化器理论,这篇论文揭示了Muon比梯度下降更快的机制,并且给出了一个只需两步就对齐参数的学习率调度,很实用。原文
11:05arXiv cs.LG@Marcelina Marjankowska, Valerio Modugno, Paolo Barucca该论文研究训练过程中Hessian矩阵领先特征向量的动态演化。作者在多层感知机分类任务上,通过位移和逆参与率两个统计量跟踪特征向量变化。结果显示SGD训练下曲率方向逐渐趋于稳定,而Adam则持续重组特征向量。Adam还表现出局部化现象,少量参数主导领先曲率方向。这些发现揭示了优化器差异对训练轨迹的影响。论文SGDAdamHessian优化器训练动态推荐理由:这篇论文分析了SGD和Adam训练中Hessian特征向量的不同行为,发现Adam会让少量参数主导曲率方向,直观解释了为什么两种优化器训练结果不同。原文
10:32arXiv cs.LG@Vladimir Bogachev, Vladimir Aletov, Alexander Molozhavenko, Sergei Kudriashov, Maxim RakhubaMuon优化器通过谱范数约束执行最速下降,但仅适用于矩阵。Tensorion将这一方法扩展到高阶张量,基于线性最小化预言机(LMO)在张量范数球上进行优化。其LMO通过自适应选择展开矩阵可高效计算,且当限制为二阶张量时精确恢复Muon。在张量计算机视觉任务中,Tensorion相比Adam和现有张量感知基线展现出更优的收敛行为与更稳定的梯度更新。论文TensorionMuon优化器张量论文推荐理由:想优化张量参数?这篇论文把Muon优雅地推广到高阶张量,实验比Adam更稳健。原文
10:31arXiv cs.LG@Alexander Hägele, Alejandro Hernández-Cano, Atli Kosson, Martin Jaggi论文提出MD Decoupling优化器修改方法,将每个权重分解为超球面上的固定范数方向与可学习的每行每列幅度增益,以解耦幅度和方向的更新。该方法与Adam和Muon等基础优化器兼容,消除了对权重衰减和warmup的需求。实验表明,MD Decoupling在宽模型和大型MoE模型上均优于精心调优的基线,并允许跨模型宽度直接迁移学习率而不需重新调参。论文MD DecouplingAdamMuonMoE优化器推荐理由:这篇论文提出了一种简单通用的优化器改进方案,能解耦权重幅度和方向,消除权重衰减和warmup,在Adam和Muon上都有效,值得关注。原文
13:22arXiv cs.LG@Florian Hübler, Kai Lion, Antonio Orvieto, Niao HeMuown优化器将权重矩阵分解为行幅度和未归一化的方向变量,分别用Adam和Muon更新。研究表明,Muown的方向更新等价于对归一化方向的黎曼步长,而幅度仅调制角度步长,这解释了其稳定性。基于此提出的AngularMuown直接优化归一化方向,并使用可调度的角度乘子与径向幅度更新解耦。在modded nanoGPT速度竞赛中,初步版AngularMuown领先每优化器类别。在Qwen2-0.5B和1.1B参数MoE模型上的实验证实该算法可扩展至更大规模。论文MuownAngularMuown优化器Transformer预训练论文推荐理由:想加速Transformer预训练?这篇论文把优化器角度步长显式化,新方法AngularMuown在nanoGPT竞赛中领先,还在0.5B和1.1B模型上验证了效果。原文
11:04arXiv cs.LG@Kaiyue Wen, Xingyu Dang, Kaifeng Lyu, Tengyu Ma, Percy Liang论文提出Hyperball,一种简单优化器包装器,固定权重矩阵及其更新量的Frobenius范数,解决Muon等优化器在大模型(如1.2B参数Qwen3模型)上相比AdamW加速效果衰减的问题。实验表明,Muon+Hyperball实现20-30% token等效加速,并改善学习率在宽度和深度上的迁移。该方法受理论启发:权重衰减导致平衡权重范数仅依赖于超参数,进而决定角度学习率。论文HyperballMuonQwen3优化器预训练推荐理由:Muon在大模型上加速效果缩水?Hyperball通过固定矩阵范数,让Muon在1.2B Qwen3上又快了20-30%,还更好调参。原文
12:34arXiv cs.LG@Andries Rosseau, Robert Müller, Ann Nowé精选深度神经网络在非平稳环境下的持续训练常导致可塑性逐渐丧失,限制进一步学习。本文首次将可塑性与经验神经正切核联系起来,并识别出动态等距性(各层雅可比奇异值接近1)是保持持续学习可塑性的关键机制。作者重新审视了一类几乎处处等距且保持通用Lipschitz函数逼近能力的网络,证明近动态等距性与表达性非线性表示兼容。针对通用架构,提出了高效的等距促进正则化方案,并发现其能重新激活休眠的ReLU单元。基于此,开发了AdamO优化器,将等距正则化与梯度更新解耦。在多个持续学习基准上,该方法一致匹配或超越现有方法。论文持续学习可塑性动态等距性优化器AdamO推荐理由:持续学习中的可塑性丧失是困扰AI训练的核心难题,本文从理论到实践给出了新解法——做持续学习、强化学习或终身学习的开发者,值得关注这个等距性视角。原文
12:26arXiv cs.LG@Brian Coyle, Snehal Raj, Virag Umathe, El Amine Cherrat, Elham Kashefi精选训练参数化量子电路(PQC)时,梯度估计的测量成本是主要瓶颈,传统参数平移规则的成本随参数数量线性增长。本文提出基于前向自动微分的梯度估计框架,通过平均可调数量的随机方向导数获得无偏梯度,并统一了SPSA、随机坐标下降和参数平移规则。在此框架下,作者推导出QUIVER(量子迭代V自适应估计规则)优化器,实现最小测量成本分配。数值实验表明,前向梯度在训练含60量子比特、1770参数的量子神经网络时,效率比参数平移规则高出数个数量级。QUIVER在量子近似优化算法和变分量子本征求解器任务上,也优于iCANS和gCANS等测量节俭优化器。论文量子机器学习参数化量子电路梯度估计QUIVER优化器推荐理由:量子机器学习团队终于有了一个能大幅降低测量成本的梯度估计框架——QUIVER在60量子比特规模上效率提升数个数量级,做量子电路优化的研究者可以直接用。原文
11:02arXiv cs.AI@Tianyu Ruan, Fengzhuo Zhang, Shuche Wang, Shihua Zhang精选72°Muon 作为预训练大语言模型和视觉分类器的新兴优化器,其效率优势已超过 Adam 和 SGD,但特征学习优势尚不明确。本文通过鲁棒性和迁移性视角研究 Muon 的特征学习优势:在损坏图像和文本上评估预训练模型,发现 Muon 学到的特征比 Adam 和 SGD 更鲁棒,且这种优势体现在更大的 logit 边际上。通过下游任务的线性分类器或微调,Muon 的特征迁移效果更好,这得益于隐藏状态的有效秩更高。在含多组件的分类问题中,论文从理论上证明了 Muon 能获得更大边际和更高有效秩。论文Muon优化器鲁棒性迁移学习特征学习推荐理由:Muon 优化器在鲁棒性和迁移性上全面超越 Adam,做预训练或迁移学习的团队值得关注,尤其是需要模型对噪声和下游任务更鲁棒的场景。原文
12:08arXiv cs.AI@Senmiao Wang, Tiantian Fang, Haoran Zhang, Yushun Zhang, Kunxiang Zhao, Alex Schwing, Ruoyu Sun精选研究人员提出了一种名为PC Layer(Preconditioning Layer)的权重参数化方法,通过在训练过程中对权重矩阵进行低阶多项式预处理,稳定其奇异值谱,从而改善大型语言模型(LLM)的预训练效果。该方法与AdamW和Muon优化器兼容,在Llama-1B模型上验证了其优于标准Transformer架构。训练后,预处理权重可合并回原始架构,不增加推理开销。理论证明,均匀限制每层奇异值能确保梯度下降在深层线性网络中收敛到全局最小值。代码已开源。论文预训练权重预处理奇异值谱Llama优化器推荐理由:这项研究解决了LLM训练中权重矩阵病态条件数导致的收敛不稳定问题,做预训练优化的团队可以直接在Llama等模型上尝试,无需额外推理成本。原文
11:56arXiv cs.AI@Thomas T. Zhang, Alok Shah, Yifei Zhang, Vincent Zhang, Nikolai Matni, Max Simchowitz精选论文提出一种名为双预处理(DoPr)的新优化范式,专门解决深度学习模型在部署时因自身预测滚动(如自回归语言模型、流生成模型、机器人策略学习)导致的误差累积问题。DoPr 结合梯度预处理(如 Adam、Muon)和激活预处理(如 KFAC),能直接提升下游任务性能(如成功率、生成质量),而不一定改善验证损失。这挑战了传统以验证损失为优化目标的评估方式,为训练-测试不匹配问题提供了新的优化维度。实验表明,DoPr 在多种测试时反馈(TTF)场景中作为即插即用模块有效。论文优化器测试时反馈误差累积DoPr深度学习推荐理由:DoPr 解决了训练和部署性能不一致的痛点,做自回归模型、流生成或机器人学习的团队可以直接尝试这个即插即用优化器,可能会发现验证损失没变但实际效果提升。原文
01:25elvis@omarsar072°微软研究院提出SkillOpt方法,将Agent的技能文档视为可训练的外部状态,通过一个优化器模型对技能文件进行验证驱动的编辑(增、删、改指令),而Agent本身保持不变。实验显示,SkillOpt在52个(模型、基准、框架)组合中表现最佳或持平,在GPT-5.5上直接聊天提升23.5分,Codex提升24.8分,Claude Code提升19.1分,且优于人类编写的技能、TextGrad等方法。该方法不增加推理成本,学到的技能可跨模型和框架迁移。论文微软研究院SkillOpt智能体技能文档优化器推荐理由:做AI Agent开发的团队常手工写技能文档但效果有限,SkillOpt用优化器自动迭代技能文件,零推理开销且效果显著,值得尝试。原文
10:28arXiv cs.LG@Xianliang Li, Zihan Zhang, Weiyang Liu, Han BaoMuon优化器在大语言模型训练中表现出色,但其动量机制的理论作用一直不明确。本文通过将动量视为一种频谱滤波器,证明了在信号加扰动的梯度模型下,动量能有效抑制扰动并保留主导信号,从而扩大两者间的频谱间隙。这种间隙的扩大稳定了传递给Muon正交化步骤的矩阵的奇异子空间,使更新更可靠。实验表明,先应用动量再进行正交化比反向顺序或移除动量能更好地对齐梯度信号。该理论为理解其他基于矩阵的优化器中动量的作用提供了起点。论文Muon动量频谱滤波优化器大语言模型训练推荐理由:做LLM训练或优化器研究的团队,这篇论文把Muon动量从玄学变成了可解释的频谱滤波机制,看完能直接指导你调参——先降噪再正交化,效果更稳。原文
11:13arXiv cs.LG@Jianhao Xu, Zhuang Yang现有深度神经网络优化器多基于ℓ₂范数或ℓ∞范数,但两者各有缺陷:ℓ₂范数在高曲率方向占主导,导致低曲率方向更新缓慢;ℓ∞范数在平坦区域易振荡。本文提出动态p值的ℓ_p范数方案,融入SGD和带动量SGD,形成LPSGD和LPSGDM优化器。训练早期用大p(>2)抑制高曲率方向,后期p逐渐降至2实现稳定更新,灵感来自余弦退火策略。理论证明非凸场景下收敛率达O(T^{-1/2}),在CIFAR-10/100和ImageNet-1K上使用VGG-11、ResNet-18/50验证了更好泛化性能。论文优化器ℓ_p范数泛化性能SGD余弦退火推荐理由:做深度学习训练调参的开发者,这个动态p范数方案解决了ℓ₂和ℓ∞范数的极端问题,直接替换SGD就能提升泛化,值得在CIFAR/ImageNet任务上试试。原文
10:22arXiv cs.LG@Tom Jacobs, Rohan Jain, Rebekka Burkholz精选HORST是一种新型优化器,通过组合自适应优化器的L∞稳定性和L1稀疏偏置,解决了稀疏Transformer训练中稳定性和稀疏性难以兼得的问题。它利用非交换算子组合优化几何,基于双曲镜像映射实现鲁棒稀疏训练。实验表明,HORST在视觉和语言任务的Transformer稀疏训练中,在所有稀疏度水平上均显著优于AdamW基线,尤其在高稀疏度下提升巨大。这项工作为高效稀疏模型训练提供了新思路。论文稀疏训练优化器TransformerHORST双曲几何推荐理由:做稀疏模型训练或Transformer优化的研究者,HORST直接解决了AdamW在高稀疏度下效果差的问题,值得在实验中尝试替换优化器。原文
10:11arXiv cs.AI@Thomas Massena, Corentin Friedrich, Mathieu Serrurier精选这篇论文提出了一种数据驱动的优化器设计方法,能够根据梯度与激活统计信息动态选择每层神经网络的最优更新几何结构,在SGD和Muon之间自适应插值。该方法基于单步随机特征回归代理模型推导出闭式准则,并整合参数级预处理,可恢复SGD、Muon、Adam和MuAdam作为特例。通过高效计算策略,仅增加约3%的运行开销,在三种训练场景中与Muon和AdamW的最佳性能持平或更优。这项工作为超越静态几何的优化器设计开辟了新路径。论文优化器自适应几何MuonSGDAdam推荐理由:这篇论文解决了优化器几何结构固定、无法适应问题几何的问题,做深度学习训练和优化器研究的开发者可以直接参考其自适应方法,有望提升模型训练效率。原文
12:09arXiv cs.AI@Yishun Lu, Wes Armour精选多模态自回归模型在图像生成和文本理解联合训练时,存在模态竞争导致优化不稳定、大batch训练受限的问题。研究发现AdamW等一阶优化器对跨模态梯度异质性敏感,而二阶预条件方法(如SOAP)能提供更稳定的对齐基础。作者提出ML-FOP-SOAP框架,通过Fisher正交投影抑制方差引起的模态冲突,并引入分层折叠策略降低计算开销。在Janus和Emu3模型上,该方法在batch size 8192下训练稳定,样本效率提升1.4倍,训练速度提升1.5倍。论文多模态模型优化器二阶优化模态竞争大规模训练推荐理由:多模态模型训练中模态竞争是常见痛点,做多模态预训练或大batch训练的团队可以直接参考这个二阶优化方案,能显著提升训练效率和稳定性。原文
21:36Moonshot AI: Kimi Blog(资讯)Moonshot AI 发布了关于 Muon 优化器的首次大规模训练实践技术报告。Muon 是一种基于矩阵正交化的优化器,旨在提升大模型训练效率。报告详细介绍了 Muon 在 1B 到 7B 参数模型上的训练效果,显示其在收敛速度和最终性能上优于 AdamW。该工作为大规模深度学习训练提供了新的优化器选择,尤其对计算资源有限的团队具有参考价值。论文Muon优化器大规模训练Moonshot AI优化器技术报告1 个信源在谈推荐理由:Muon 优化器有望替代 AdamW 成为大模型训练的新标配,做预训练或微调的团队值得关注其收敛速度和资源节省效果。原文
19:12arXiv cs.LG@Kexuan Shi, Hanxuan Li, Zeju Qiu, Yandong Wen, Simon Buchholz, Weiyang Liu精选Pion 是一种用于大语言模型训练的新型优化器,通过左右正交变换更新权重矩阵,在整个训练过程中保持其奇异值不变。与 Adam 和 Muon 等加法优化器不同,Pion 在固定权重矩阵谱范数的同时调节其几何结构,提供了一种稳定的优化机制。实验表明,Pion 在 LLM 预训练和微调中均能作为标准优化器的稳定且有竞争力的替代方案。论文优化器大语言模型谱保持正交变换Pion推荐理由:Pion 解决了传统优化器在训练中破坏权重矩阵谱结构的问题,做 LLM 训练的研究者和工程师值得关注,尤其适合追求训练稳定性和模型质量的团队。原文