MiniMax-M3 模型：1M 上下文+原生多模态+稀疏注意力

精选理由

做长上下文和多模态应用的团队可以关注——MiniMax-M3 的稀疏注意力优化让吞吐量提升显著，直接降低推理成本，值得一试。

AI 摘要

MiniMax-M3 是一款结合了 1M 上下文窗口、原生多模态能力和 MiniMax 稀疏注意力机制的新模型。Together 的推理和内核团队通过 KV-block-major 稀疏注意力、分页 MSA 解码、优化索引评分以及 GPU 工作前的多模态预处理，将常见智能体流量下的吞吐量提升了 81-125%。该模型在长上下文和多模态任务上表现出色，适合需要处理大量信息和多种数据类型的应用场景。

AI 翻译 · 中文

Together AIMiniMax-M3 combines 1M context, native multimodality, and MiniMax Sparse Attention. The next layer is serving it efficiently: KV-block-major sparse attention, paged MSA decode, optimized index scoring, and multimodal pre…

OpenRouter06-01 02:42原文
歸藏(guizang.ai)06-01 06:01原文
岚叔06-01 10:53原文
IT之家06-01 01:24原文
Guillermo Rauch06-01 23:40原文
lmarena.ai06-04 02:53原文
Browser Use06-01 19:32原文

查看原推