adamw·general

adamw

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
24
§ 01综述

AdamW作为深度学习中最常用的优化器之一,近期研究围绕其局限性展开,涌现出多种替代方案。传统AdamW在内存占用、训练稳定性及大规模模型适应性方面存在不足,尤其是其权重衰减实现方式(解耦权重衰减)虽被广泛采用,但近年来学者发现它可能导致优化几何不佳(如稀疏梯度问题)或大模型训练不收敛。

    近期主要进展包括:
  • Muon优化器由Moonshot AI发布大规模实践报告,该优化器基于Schatten-p范数设计,在7B模型上达到与AdamW相当的收敛速度,但内存更低;同时,最新理论工作(从SGD到Muon:基于Schatten-p范数的自适应优化)系统化了这类自适应方法。
  • HORST优化器专注于稀疏Transformer训练,通过几何组合优化实现稀疏性,性能优于AdamW(HORST:组合优化器几何实现稀疏Transformer训练)。
  • PC Layer提出多项式权重预处理,稳定LLM预训练,避免AdamW因归一化失稳导致的发散问题(PC Layer:多项式权重预处理提升LLM预训练稳定性)。
  • 对称性兼容优化器设计指出嵌入层与LM头需特殊学习率缩放,这对AdamW的默认设置构成挑战(对称性兼容优化器设计原则)。

当前焦点在于:AdamW是否仍是多模态、MoE等新兴架构的最佳选择?ML-FOP-SOAP等二阶优化器试图解决模态竞争(ML-FOP-SOAP),而Ringmaster LMO探索了异步动量方法。未来观察点:Muon、HORST等能否在大规模多模态训练中取代AdamW;以及优化器与模型一致性问题(同优化器微调遗忘更少)是否意味着AdamW的微调优势被夸大。

§ 02相关报道10 条在档
  1. 01
    Dense Supervision, Sparse Updates: 策略蒸馏的稀疏性与几何特性分析
    arXiv cs.LG
  2. 02
    PC Layer:多项式权重预处理提升LLM预训练稳定性
    arXiv cs.AI
  3. 03
    量化超参数迁移与嵌入层学习率的重要性
    arXiv cs.AI
  4. 04
    HORST:组合优化器几何实现稀疏Transformer训练
    arXiv cs.LG
  5. 05
    从SGD到Muon:基于Schatten-p范数的自适应优化
    arXiv cs.AI
  6. 06
    Ringmaster LMO:异步线性最小化预言机动量法
    arXiv cs.LG
  7. 07
    对称性兼容优化器设计原则:嵌入层、LM头、SwiGLU MLP与MoE路由器
    arXiv cs.LG
  8. 08
    ML-FOP-SOAP:二阶优化器解决多模态模型模态竞争问题
    arXiv cs.AI
  9. 09
    Moonshot AI 发布 Muon 优化器大规模训练实践报告
    Moonshot AI: Kimi Blog
  10. 10
    优化器-模型一致性:同优化器微调遗忘更少
    arXiv cs.AI
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/adamw