全部 AI 动态 · AI 热点

6月30日

12:10

arXiv cs.LG@Mark Rhee, Jamie Simon, Dhruva Karkada

该论文研究Muon优化器在矩阵分解问题中的参数动力学，发现其与梯度下降有三点关键差异：1）Muon避免从小初始化开始的慢鞍点动力学，以相同速率学习所有顶模，较小模先收敛；2）即使学习率超过局部损失尖锐度的临界阈值，Muon仍保持稳定，允许通过指数学习率退火实现快速收敛；3）Muon流守恒矩阵√(P^T P)-√(Q^T Q)，而梯度流守恒P^T P - Q^T Q。从零初始化时，两者都能找到平衡解。论文还推导了简单设定下的对齐速率，并利用Muon结构属性设计了仅需两步达到近完美对齐的学习率调度。

论文 Muon 矩阵分解优化器动力学平衡解

推荐理由：如果你关注优化器理论，这篇论文揭示了Muon比梯度下降更快的机制，并且给出了一个只需两步就对齐参数的学习率调度，很实用。

原文

11:05

arXiv cs.LG@Marcelina Marjankowska, Valerio Modugno, Paolo Barucca

该论文研究训练过程中Hessian矩阵领先特征向量的动态演化。作者在多层感知机分类任务上，通过位移和逆参与率两个统计量跟踪特征向量变化。结果显示SGD训练下曲率方向逐渐趋于稳定，而Adam则持续重组特征向量。Adam还表现出局部化现象，少量参数主导领先曲率方向。这些发现揭示了优化器差异对训练轨迹的影响。

论文 SGD Adam Hessian 优化器训练动态

推荐理由：这篇论文分析了SGD和Adam训练中Hessian特征向量的不同行为，发现Adam会让少量参数主导曲率方向，直观解释了为什么两种优化器训练结果不同。

原文

6月25日

10:32

arXiv cs.LG@Vladimir Bogachev, Vladimir Aletov, Alexander Molozhavenko, Sergei Kudriashov, Maxim Rakhuba

Muon优化器通过谱范数约束执行最速下降，但仅适用于矩阵。Tensorion将这一方法扩展到高阶张量，基于线性最小化预言机（LMO）在张量范数球上进行优化。其LMO通过自适应选择展开矩阵可高效计算，且当限制为二阶张量时精确恢复Muon。在张量计算机视觉任务中，Tensorion相比Adam和现有张量感知基线展现出更优的收敛行为与更稳定的梯度更新。

论文 Tensorion Muon 优化器张量论文

推荐理由：想优化张量参数？这篇论文把Muon优雅地推广到高阶张量，实验比Adam更稳健。

原文

10:31

arXiv cs.LG@Alexander Hägele, Alejandro Hernández-Cano, Atli Kosson, Martin Jaggi

论文提出MD Decoupling优化器修改方法，将每个权重分解为超球面上的固定范数方向与可学习的每行每列幅度增益，以解耦幅度和方向的更新。该方法与Adam和Muon等基础优化器兼容，消除了对权重衰减和warmup的需求。实验表明，MD Decoupling在宽模型和大型MoE模型上均优于精心调优的基线，并允许跨模型宽度直接迁移学习率而不需重新调参。

论文 MD Decoupling Adam Muon MoE 优化器

推荐理由：这篇论文提出了一种简单通用的优化器改进方案，能解耦权重幅度和方向，消除权重衰减和warmup，在Adam和Muon上都有效，值得关注。

原文

6月23日

13:22

arXiv cs.LG@Florian Hübler, Kai Lion, Antonio Orvieto, Niao He

Muown优化器将权重矩阵分解为行幅度和未归一化的方向变量，分别用Adam和Muon更新。研究表明，Muown的方向更新等价于对归一化方向的黎曼步长，而幅度仅调制角度步长，这解释了其稳定性。基于此提出的AngularMuown直接优化归一化方向，并使用可调度的角度乘子与径向幅度更新解耦。在modded nanoGPT速度竞赛中，初步版AngularMuown领先每优化器类别。在Qwen2-0.5B和1.1B参数MoE模型上的实验证实该算法可扩展至更大规模。

论文 Muown AngularMuown 优化器 Transformer预训练论文

推荐理由：想加速Transformer预训练？这篇论文把优化器角度步长显式化，新方法AngularMuown在nanoGPT竞赛中领先，还在0.5B和1.1B模型上验证了效果。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:04

arXiv cs.LG@Kaiyue Wen, Xingyu Dang, Kaifeng Lyu, Tengyu Ma, Percy Liang

论文提出Hyperball，一种简单优化器包装器，固定权重矩阵及其更新量的Frobenius范数，解决Muon等优化器在大模型（如1.2B参数Qwen3模型）上相比AdamW加速效果衰减的问题。实验表明，Muon+Hyperball实现20-30% token等效加速，并改善学习率在宽度和深度上的迁移。该方法受理论启发：权重衰减导致平衡权重范数仅依赖于超参数，进而决定角度学习率。

论文 Hyperball Muon Qwen3 优化器预训练

推荐理由：Muon在大模型上加速效果缩水？Hyperball通过固定矩阵范数，让Muon在1.2B Qwen3上又快了20-30%，还更好调参。

原文

6月12日