全部 AI 动态 · AI 热点

6月25日

10:32

arXiv cs.LG@Vladimir Bogachev, Vladimir Aletov, Alexander Molozhavenko, Sergei Kudriashov, Maxim Rakhuba

Muon优化器通过谱范数约束执行最速下降，但仅适用于矩阵。Tensorion将这一方法扩展到高阶张量，基于线性最小化预言机（LMO）在张量范数球上进行优化。其LMO通过自适应选择展开矩阵可高效计算，且当限制为二阶张量时精确恢复Muon。在张量计算机视觉任务中，Tensorion相比Adam和现有张量感知基线展现出更优的收敛行为与更稳定的梯度更新。

论文 Tensorion Muon 优化器张量论文

推荐理由：想优化张量参数？这篇论文把Muon优雅地推广到高阶张量，实验比Adam更稳健。

原文

10:31

arXiv cs.LG@Alexander Hägele, Alejandro Hernández-Cano, Atli Kosson, Martin Jaggi

论文提出MD Decoupling优化器修改方法，将每个权重分解为超球面上的固定范数方向与可学习的每行每列幅度增益，以解耦幅度和方向的更新。该方法与Adam和Muon等基础优化器兼容，消除了对权重衰减和warmup的需求。实验表明，MD Decoupling在宽模型和大型MoE模型上均优于精心调优的基线，并允许跨模型宽度直接迁移学习率而不需重新调参。

论文 MD Decoupling Adam Muon MoE 优化器

推荐理由：这篇论文提出了一种简单通用的优化器改进方案，能解耦权重幅度和方向，消除权重衰减和warmup，在Adam和Muon上都有效，值得关注。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:04

arXiv cs.LG@Kaiyue Wen, Xingyu Dang, Kaifeng Lyu, Tengyu Ma, Percy Liang

论文提出Hyperball，一种简单优化器包装器，固定权重矩阵及其更新量的Frobenius范数，解决Muon等优化器在大模型（如1.2B参数Qwen3模型）上相比AdamW加速效果衰减的问题。实验表明，Muon+Hyperball实现20-30% token等效加速，并改善学习率在宽度和深度上的迁移。该方法受理论启发：权重衰减导致平衡权重范数仅依赖于超参数，进而决定角度学习率。

论文 Hyperball Muon Qwen3 优化器预训练

推荐理由：Muon在大模型上加速效果缩水？Hyperball通过固定矩阵范数，让Muon在1.2B Qwen3上又快了20-30%，还更好调参。

原文

6月15日

11:11

arXiv cs.LG@Florian Hübler, Thomas Pethick, Suvrit Sra

Muon和Scion等非欧几里得优化方法在训练Transformer时表现优异，但其理论优势一直未明确。本研究证明在重尾非凸场景（随机梯度p阶中心矩有界，p∈(1,2]）下，非欧几里得方法在更强的平稳性度量下达到最优样本复杂度，而欧几里得方法有额外维度依赖。对于m×n矩阵，Muon在核范数下找到ε-稳定点仅需O(min{m,n}Δ1L/ε^2(σ/ε)^{p/(p-1)})个样本，可吸收重尾噪声而无额外维度开销。实验在大型语言模型上验证了理论，并表明其他Schatten几何在某些设置下也可与Muon竞争。

论文 Muon Scion 优化算法理论分析非凸优化

推荐理由：Muon为何能训练Transformer？

原文

6月12日