mamba2·general

Mamba-2

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
15
§ 01综述

状态空间模型(SSM)Mamba-2 正从理论走向应用,其混合架构与线性注意力变体成为近期热点。NVIDIA 发布 Nemotron 3 Ultra 系列,采用 Mamba-2 与 Transformer 混合设计,并融入潜在 MoE 和多 token 预测(MTP),在推理效率上表现突出,被视为对大语言模型架构的重要探索(NVIDIA Nemotron 3 深度解析Nemotron 3 Ultra 开源:Mamba-2 混合架构,效率惊人)。与此同时,Gated DeltaNet-2 通过解耦擦除与写入门控,进一步优化线性注意力层,其与 Mamba-2 在序列建模上的互补性受到关注(Gated DeltaNet-2:解耦线性注意力中的擦除与写入门控NVIDIA 发布 Gated DeltaNet-2:线性注意力层解耦擦除与写入)。在应用层面,MambaGaze 利用双向 Mamba 建模眼动数据,成功实现认知负荷实时评估,展示了 Mamba-2 在时序建模与缺失数据处理的优势(MambaGaze:双向Mamba建模眼动缺失数据,实现认知负荷实时评估)。然而,Mamba-2 的竞争格局也在变化:xLSTM 在代码预训练和时序建模任务中超越 Mamba-2 及其他子二次架构,表明长程依赖建模仍有多种路径(xLSTM 在子二次架构对比中胜出:代码预训练与时序建模表现最强)。此外,MoE 调度研究指出,路由不均衡是模型固有缺陷,系统层难以彻底修正,这对混合 MoE 架构的鲁棒性提出挑战(DODOCO 揭示 MoE 调度瓶颈:路由不均衡是模型固有,系统层无法修正)。当前焦点在于混合架构(如 Mamba-2 + Transformer)能否在效率与表达能力间取得平衡,以及线性注意力变体如何突破上下文长度瓶颈。未来需观察 Mamba-2 在更大规模训练和下游任务中的实际表现,以及 xLSTM 等替代方案的演进。

§ 02相关报道07 条在档
  1. 01
    Nemotron 3 Ultra 开源:Mamba-2 混合架构,效率惊人
    Sebastian Raschka
  2. 02
    NVIDIA Nemotron 3 深度解析:混合 Mamba Transformer + 潜在 MoE + MTP
    NVIDIA AI
  3. 03
    xLSTM 在子二次架构对比中胜出:代码预训练与时序建模表现最强
    arXiv cs.LG
  4. 04
    NVIDIA 发布 Gated DeltaNet-2:线性注意力层解耦擦除与写入
    marktechpost
  5. 05
    Gated DeltaNet-2:解耦线性注意力中的擦除与写入门控
    arXiv cs.AI
  6. 06
    MambaGaze:双向Mamba建模眼动缺失数据,实现认知负荷实时评估
    arXiv cs.AI
  7. 07
    DODOCO 揭示 MoE 调度瓶颈:路由不均衡是模型固有,系统层无法修正
    arXiv cs.AI
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/Mamba-2