精选理由
MiniMax M3用动态稀疏注意力把1M上下文的算力成本打下来了,做长上下文Agent的开发者可以直接关注,这可能是让百万token任务真正落地的关键突破。
MiniMax AI工程负责人Skyler Miao预告了下一代模型M3的发布,并透露其核心架构:基于GQA的动态块稀疏注意力。该技术通过轻量索引分支快速筛选相关token块,仅对关键块执行稀疏注意力计算,大幅降低算力需求。在1M token上下文下,M3的预填充速度比M2快9.7倍,解码速度快15.6倍。这使得百万token级别的Agent任务从理论走向实用,长上下文处理变得又快又省。M3的发布将为长上下文模型赛道增添有力竞争者。
AI 翻译 · 中文
MiniMax AI工程负责人Skyler Miao预告了下一代模型M3的发布,并透露其核心架构:基于GQA的动态块稀疏注意力。该技术通过轻量索引分支快速筛选相关token块,仅对关键块执行稀疏注意力计算,大幅降低算力需求。在1M token上下文下,M3的预填充速度比M2快9.7倍,解码速度快15.6倍。这使得百万token级别的Agent任务从理论走向实用,长上下文处理变得又快又省。M3的发布将为长上下文模型赛道增添有力竞争者。
兄弟们,MiniMax M3 要来了~~~ MiniMax AI工程负责人Skyler Miao今天只发了一句“Something BIG is coming”。 配图里藏着M3模型的核心架构:基于GQA的动态块稀疏注意力。 它先用一个轻量索引分支快速扫完整上下文,选出最相关的token块,再只对这些块做真正的Sparse Attention(稀疏注意力)。 结果在1M token上下文上,Prefill (预填充)速度比M…