MiniMax M3 发布：MSA 注意力机制实现 1M token 解码快 15.6 倍

精选理由

长上下文推理的瓶颈被 MSA 大幅缓解，做 RAG、长文档分析或大上下文应用的团队值得立即体验，速度提升意味着更低的成本和更好的用户体验。

AI 摘要

MiniMax 发布了新模型 M3，其核心创新是 MiniMax Sparse Attention (MSA) 机制，在 1M token 长上下文场景下解码速度提升 15.6 倍。Fireworks AI 宣布与 MiniMax 合作，为本次发布提供推理支持。用户可前往 minimax.io 试用，模型权重发布后也将对 Fireworks 社区开放。这一突破显著降低了长上下文推理的延迟和成本，对需要处理超长文档、代码库或对话历史的开发者意义重大。

AI 翻译 · 中文

Fireworks AIMiniMax M3 arrives with MiniMax Sparse Attention (MSA), 15.6x faster decoding at 1M tokens. We're partnering with @MiniMax_AI to power the inference behind this week's launch. Head to minimax.io to take it for a …

查看原推