Ringmaster LMO：异步线性最小化预言机动量法

精选理由

分布式训练团队终于有了异步 LMO 方法的理论保障——Ringmaster LMO 解决了异构集群中慢节点拖累效率的问题，做大规模预训练或异构系统优化的开发者值得关注。

AI 摘要

Muon 作为 AdamW 的替代方案在神经网络训练中表现出色，但基于线性最小化预言机（LMO）的方法通常采用同步训练，在异构分布式系统中受限于慢速工作节点。本文提出 Ringmaster LMO，一种异步 LMO 动量方法，借鉴 Ringmaster ASGD 的延迟阈值思想，通过丢弃过时梯度实现最优时间复杂度。该方法在广义 (L0, L1)-光滑性下建立了收敛保证，并开发了参数无关的变体。实验表明，在随机二次问题和 NanoChat 语言模型预训练中，Ringmaster LMO 在异构环境下显著优于同步和异步基线。

AI 翻译 · 中文

arXiv cs.LGMuon has recently emerged as a strong alternative to AdamW for training neural networks, with encouraging large-scale pretraining results and growing evidence that matrix-structured updates can be faster in practice. Yet…

阅读原文