11:10arXiv cs.LG@Tim Tsz-Kit Lau, Weijie Su精选这篇论文提出了一种对称性兼容的优化器设计原则,要求梯度更新规则在参数块的对称群作用下保持等变性。作者首先统一了双正交等变更新(如Muon、Scion等方法)的视角,然后针对嵌入层、语言模型头、SwiGLU MLP投影和MoE路由器矩阵等具有不同对称性的参数块,推导了相应的对称性兼容优化器(如单边谱、行范数、混合行范数/谱等更新)。通过在Qwen3-0.6B、Gemma 3 1B、OLMoE-1B-7B等架构上的预训练实验,验证了该方法相比AdamW能持续改善验证损失和训练稳定性。这项工作为不同参数类型提供了端到端的层级优化器栈,使更新规则与参数块的对称性相匹配。论文优化器设计对称性等变性Muon/Scion语言模型预训练MoE路由器推荐理由:这篇论文解决了深度学习优化器忽视架构对称性的根本问题,做大规模语言模型预训练的团队值得关注——它可能成为替代AdamW的新范式,实验显示能稳定提升损失和训练稳定性。原文