论文精选

MiniMax Sparse Attention:28倍加速超长上下文推理

MiniMax Sparse Attention

精选理由

做长上下文推理或 agent 工作流的开发者,终于有了一个能直接部署的稀疏注意力方案——MSA 在 109B 模型上实现 28 倍计算缩减,且内核已开源,值得立刻试跑。

AI 摘要

MiniMax 提出了一种名为 MiniMax Sparse Attention (MSA) 的块级稀疏注意力机制,旨在解决大语言模型在超长上下文(百万级 token)下的计算瓶颈。MSA 基于分组查询注意力(GQA),通过轻量级索引分支对键值块进行评分,并为每个 GQA 组独立选择 Top-k 子集,实现高效的组级稀疏检索。在 109B 参数的多模态模型上,MSA 在 1M 上下文长度下将每 token 注意力计算量减少 28.4 倍,并在 H800 GPU 上实现 14.2 倍预填充和 7.6 倍解码加速。该方法的推理内核已开源,同时发布了基于 MSA 的生产级多模态模型。

AI 翻译 · 中文

MiniMax 提出了一种名为 MiniMax Sparse Attention (MSA) 的块级稀疏注意力机制,旨在解决大语言模型在超长上下文(百万级 token)下的计算瓶颈。MSA 基于分组查询注意力(GQA),通过轻量级索引分支对键值块进行评分,并为每个 GQA 组独立选择 Top-k 子集,实现高效的组级稀疏检索。在 109B 参数的多模态模型上,MSA 在 1M 上下文长度下将每 token 注意力计算量减少 28.4 倍,并在 H800 GPU 上实现 14.2 倍预填充和 7.6 倍解码加速。该方法的推理内核已开源,同时发布了基于 MSA 的生产级多模态模型。

arXiv cs.AIUltra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over hundreds of thousands to m