MiniMax M3 即将发布，1M上下文速度提升10倍以上

精选理由

MiniMax M3用动态稀疏注意力把1M上下文的算力成本打下来了，做长上下文Agent的开发者可以直接关注，这可能是让百万token任务真正落地的关键突破。

AI 摘要

MiniMax AI工程负责人Skyler Miao预告了下一代模型M3的发布，并透露其核心架构：基于GQA的动态块稀疏注意力。该技术通过轻量索引分支快速筛选相关token块，仅对关键块执行稀疏注意力计算，大幅降低算力需求。在1M token上下文下，M3的预填充速度比M2快9.7倍，解码速度快15.6倍。这使得百万token级别的Agent任务从理论走向实用，长上下文处理变得又快又省。M3的发布将为长上下文模型赛道增添有力竞争者。

AI 翻译 · 中文

berryxia兄弟们，MiniMax M3 要来了~~~ MiniMax AI工程负责人Skyler Miao今天只发了一句“Something BIG is coming”。配图里藏着M3模型的核心架构：基于GQA的动态块稀疏注意力。它先用一个轻量索引分支快速扫完整上下文，选出最相关的token块，再只对这些块做真正的Sparse Attention（稀疏注意力）。结果在1M token上下文上，Prefill （预填充）速度比M…

查看原推