从SGD到Muon：基于Schatten-p范数的自适应优化

精选理由

这篇论文解决了优化器几何结构固定、无法适应问题几何的问题，做深度学习训练和优化器研究的开发者可以直接参考其自适应方法，有望提升模型训练效率。

AI 摘要

这篇论文提出了一种数据驱动的优化器设计方法，能够根据梯度与激活统计信息动态选择每层神经网络的最优更新几何结构，在SGD和Muon之间自适应插值。该方法基于单步随机特征回归代理模型推导出闭式准则，并整合参数级预处理，可恢复SGD、Muon、Adam和MuAdam作为特例。通过高效计算策略，仅增加约3%的运行开销，在三种训练场景中与Muon和AdamW的最佳性能持平或更优。这项工作为超越静态几何的优化器设计开辟了新路径。

AI 翻译 · 中文

arXiv cs.AIModern optimizers, like Muon, impose matrix-wise geometry constraints on their updates. These matrix-wise constraints can be unified under Linear Minimization Oracle (LMO) theory. However, all current methods impose fixe…

阅读原文