AdamW作为深度学习中最常用的优化器之一,近期研究围绕其局限性展开,涌现出多种替代方案。传统AdamW在内存占用、训练稳定性及大规模模型适应性方面存在不足,尤其是其权重衰减实现方式(解耦权重衰减)虽被广泛采用,但近年来学者发现它可能导致优化几何不佳(如稀疏梯度问题)或大模型训练不收敛。
- 近期主要进展包括:
- Muon优化器由Moonshot AI发布大规模实践报告,该优化器基于Schatten-p范数设计,在7B模型上达到与AdamW相当的收敛速度,但内存更低;同时,最新理论工作(从SGD到Muon:基于Schatten-p范数的自适应优化)系统化了这类自适应方法。
- HORST优化器专注于稀疏Transformer训练,通过几何组合优化实现稀疏性,性能优于AdamW(HORST:组合优化器几何实现稀疏Transformer训练)。
- PC Layer提出多项式权重预处理,稳定LLM预训练,避免AdamW因归一化失稳导致的发散问题(PC Layer:多项式权重预处理提升LLM预训练稳定性)。
- 对称性兼容优化器设计指出嵌入层与LM头需特殊学习率缩放,这对AdamW的默认设置构成挑战(对称性兼容优化器设计原则)。
当前焦点在于:AdamW是否仍是多模态、MoE等新兴架构的最佳选择?ML-FOP-SOAP等二阶优化器试图解决模态竞争(ML-FOP-SOAP),而Ringmaster LMO探索了异步动量方法。未来观察点:Muon、HORST等能否在大规模多模态训练中取代AdamW;以及优化器与模型一致性问题(同优化器微调遗忘更少)是否意味着AdamW的微调优势被夸大。