adam·general

Adam

别名
首次出现
2026-05-22
最近出现
2026-06-09
累计提及
39
§ 01综述

Adam 作为深度学习中最主流的自适应学习率优化器,近期面临着来自多个新优化器的挑战,这些新方法试图在泛化能力、训练效率或迁移性上超越 Adam。

  • Muon 优化器的潜力:arXiv最新研究提出Muon优化器,通过计算梯度更新方向的低秩投影,使得训练后的模型学到更鲁棒、可迁移的特征,在大规模视觉和语言任务上表现优于Adam及其变体。 (Muon 优化器比 Adam 学到更鲁棒、可迁移的特征)
  • DoPr 聚焦测试性能:另一项工作DoPr优化器直接针对测试时性能而非验证损失进行优化,在多个自然语言处理任务中显著超越Adam,尤其在下游迁移场景中表现突出。 (DoPr 优化器:专为测试时性能设计,而非验证损失)
  • 优化器与token表示的关系:有研究指出,Adam在训练大语言模型时可能导致低频token退化(如人名),新方法SLoW通过约束词嵌入更新改善了这一问题,表明优化器选择对模型输出质量有深层次影响。 (大模型“叫不出人名”背后:低频token退化与FaceMind的SLoW方法)
  • 当前焦点在于新优化器能否在保持Adam易用性的同时,真正带来稳定且显著的提升。未来值得观察:1) 这些优化器在不同架构和任务上的普适性;2) 它们与混合精度训练、分布式系统的兼容性;3) 工业界是否会逐渐替换默认的Adam选择。

    § 02相关报道10 条在档
    1. 01
      Muon 优化器比 Adam 学到更鲁棒、可迁移的特征
      arXiv cs.AI
    2. 02
      DoPr 优化器:专为测试时性能设计,而非验证损失
      arXiv cs.AI
    3. 03
      大模型“叫不出人名”背后:低频token退化与FaceMind的SLoW方法
      岚叔
    4. 04
      别给AI拽高级词汇!FaceMind实验证明高频表达更有效
      berryxia
    5. 05
      Agent 追踪数据为何价值连城:从观察行为到构建评估
      Harrison Chase
    6. 06
      LangChain 分享如何用 Trace 数据构建生产级 Agent 评估
      LangChain
    7. 07
      为什么不应在Copilot、Gemini等AI工具中保留默认模型选择
      Decoder
    8. 08
      微软Copilot被曝对未见图片产生幻觉,类似斯坦福研究
      Gary Marcus
    9. 09
      从SGD到Muon:基于Schatten-p范数的自适应优化
      arXiv cs.AI
    10. 10
      Pion:基于正交等价变换的谱保持优化器
      arXiv cs.LG
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/Adam