mamba·general

Mamba

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
14
§ 01综述

基于状态空间模型的Mamba架构正以多种混合形态快速进入工业界和学术界的核心应用场景,其与Transformer的互补趋势日益明显。

近期最受关注的进展是NVIDIA推出的Nemotron 3 Ultra系列模型。这款550B混合专家模型采用了Mamba-2与Transformer的混合架构,并引入潜在MoE与多Token预测(MTP)技术,专为长时间运行的智能体任务设计,效率表现惊人。NVIDIA声称该模型在长序列处理上具有显著优势,并已开源以推动社区研究。此外,NVIDIA还发布了Gated DeltaNet-2,这是一种将擦除与写入操作解耦的线性注意力层,进一步丰富了状态空间模型的设计空间。

与此同时,另一类次二次架构的竞争也在展开。arXiv上的最新对比研究显示,xLSTM在代码预训练和时间序列建模任务上表现最强,超过了Mamba等模型,这表明“次二次架构”领域尚未有统一的胜者,不同架构各有适用场景。

在应用层面,Mamba的变体正向生物信号处理渗透。例如,CaMBRAIN是首个基于因果状态空间模型的实时连续EEG推理系统,借助Mamba的效率实现了低延迟;MambaGaze则利用双向Mamba建模眼动数据中的缺失值,用于认知负荷的实时评估。这两个案例展示了Mamba在时间序列预测和缺失数据处理中的独特优势。此外,CogScale基准测试的提出,为评估模型处理长序列的能力提供了标准化工具,这将帮助社区更系统地比较不同架构。

当前焦点:Mamba混合架构正在成为大模型领域的新趋势,尤其在需要长上下文或实时推理的场景中,其效率优势明显。然而,xLSTM等对手在部分任务中表现更强,说明“后Transformer”时代仍处于百花齐放阶段。未来观察点:随着NVIDIA等巨头的开源推动,混合Mamba模型能否在更多领域(如多模态、强化学习)落地?以及不同状态空间架构之间的融合能否催生更通用的基础模型?

§ 02相关报道08 条在档
  1. 01
    Nemotron 3 Ultra 开源:Mamba-2 混合架构,效率惊人
    Sebastian Raschka
  2. 02
    NVIDIA Nemotron 3 深度解析:混合 Mamba Transformer + 潜在 MoE + MTP
    NVIDIA AI
  3. 03
    xLSTM 在子二次架构对比中胜出:代码预训练与时序建模表现最强
    arXiv cs.LG
  4. 04
    NVIDIA 发布 Nemotron 3 Ultra:550B 混合专家模型,专为长时智能体设计
    marktechpost
  5. 05
    CaMBRAIN:首个因果状态空间模型实现实时连续EEG推理
    arXiv cs.AI
  6. 06
    NVIDIA 发布 Gated DeltaNet-2:线性注意力层解耦擦除与写入
    marktechpost
  7. 07
    MambaGaze:双向Mamba建模眼动缺失数据,实现认知负荷实时评估
    arXiv cs.AI
  8. 08
    CogScale:可扩展序列处理能力基准测试
    arXiv cs.AI
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/Mamba