MiniMax Sparse Attention：28倍加速超长上下文推理

精选理由

做长上下文推理或 agent 工作流的开发者，终于有了一个能直接部署的稀疏注意力方案——MSA 在 109B 模型上实现 28 倍计算缩减，且内核已开源，值得立刻试跑。

AI 摘要

MiniMax 提出了一种名为 MiniMax Sparse Attention (MSA) 的块级稀疏注意力机制，旨在解决大语言模型在超长上下文（百万级 token）下的计算瓶颈。MSA 基于分组查询注意力（GQA），通过轻量级索引分支对键值块进行评分，并为每个 GQA 组独立选择 Top-k 子集，实现高效的组级稀疏检索。在 109B 参数的多模态模型上，MSA 在 1M 上下文长度下将每 token 注意力计算量减少 28.4 倍，并在 H800 GPU 上实现 14.2 倍预填充和 7.6 倍解码加速。该方法的推理内核已开源，同时发布了基于 MSA 的生产级多模态模型。

AI 翻译 · 中文

arXiv cs.AIUltra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over hundreds of thousands to m…

阅读原文