基于状态空间模型的Mamba架构正以多种混合形态快速进入工业界和学术界的核心应用场景,其与Transformer的互补趋势日益明显。
近期最受关注的进展是NVIDIA推出的Nemotron 3 Ultra系列模型。这款550B混合专家模型采用了Mamba-2与Transformer的混合架构,并引入潜在MoE与多Token预测(MTP)技术,专为长时间运行的智能体任务设计,效率表现惊人。NVIDIA声称该模型在长序列处理上具有显著优势,并已开源以推动社区研究。此外,NVIDIA还发布了Gated DeltaNet-2,这是一种将擦除与写入操作解耦的线性注意力层,进一步丰富了状态空间模型的设计空间。
与此同时,另一类次二次架构的竞争也在展开。arXiv上的最新对比研究显示,xLSTM在代码预训练和时间序列建模任务上表现最强,超过了Mamba等模型,这表明“次二次架构”领域尚未有统一的胜者,不同架构各有适用场景。
在应用层面,Mamba的变体正向生物信号处理渗透。例如,CaMBRAIN是首个基于因果状态空间模型的实时连续EEG推理系统,借助Mamba的效率实现了低延迟;MambaGaze则利用双向Mamba建模眼动数据中的缺失值,用于认知负荷的实时评估。这两个案例展示了Mamba在时间序列预测和缺失数据处理中的独特优势。此外,CogScale基准测试的提出,为评估模型处理长序列的能力提供了标准化工具,这将帮助社区更系统地比较不同架构。
当前焦点:Mamba混合架构正在成为大模型领域的新趋势,尤其在需要长上下文或实时推理的场景中,其效率优势明显。然而,xLSTM等对手在部分任务中表现更强,说明“后Transformer”时代仍处于百花齐放阶段。未来观察点:随着NVIDIA等巨头的开源推动,混合Mamba模型能否在更多领域(如多模态、强化学习)落地?以及不同状态空间架构之间的融合能否催生更通用的基础模型?