Mamba-2

§ 01综述

Mamba-2 是一种改进的状态空间模型架构，旨在解决长序列建模中计算效率与表现力的平衡问题，被视为 Transformer 的高效替代方案之一。近期，该架构在混合模型、量化部署和基础理论探索方面取得多项进展。

Mamba-2 近期进展

2026 年 6 月 12 日，Zyphra 发布了 Zamba2-VL，这是首个混合 Mamba2-Transformer 的视觉语言模型。该模型将首 token 延迟降低约一个数量级，同时保持多模态理解能力，标志着 Mamba-2 在实时交互场景中的潜力。原文标题

同期，NVIDIA 开源了 Nemotron 3 Ultra 模型，其采用 Mamba-2 与 Transformer 的混合架构，并引入潜在 MoE 和多 token 预测。该模型在效率上表现惊人，进一步验证了 Mamba-2 作为骨干网络的可扩展性。原文标题

2026 年 7 月一篇论文提出一种精确测量选择性状态空间模型状态使用情况的工具，揭示了输入驱动迁移现象，为理解 Mamba-2 等模型的内部动态提供了新方法。原文标题

量化方面，Ternary Mamba 方法利用预训练检查点实现 W1.58A16 量化，显著压缩 Mamba-2 模型大小，推动其边缘端部署。原文标题

当前焦点与观察点

当前 Mamba-2 的研究焦点集中于混合架构（与 Transformer 结合）、模型效率优化（量化、低延迟）以及理论理解。值得注意的是，xLSTM 在一项子二次架构对比中表现优于 Mamba-2，提示其并非所有任务上的最优选择。此外，NVIDIA 同期推出的 Gated DeltaNet-2 作为线性注意力层，提出了不同的高效序列建模路径。这些进展表明，围绕 Mamba-2 的竞争与互补研究正在加速，未来高效架构的格局尚不明朗。

§ 02相关报道10 条在档

§ 03邻近话题