精选理由
长上下文推理的瓶颈被 MSA 大幅缓解,做 RAG、长文档分析或大上下文应用的团队值得立即体验,速度提升意味着更低的成本和更好的用户体验。
MiniMax 发布了新模型 M3,其核心创新是 MiniMax Sparse Attention (MSA) 机制,在 1M token 长上下文场景下解码速度提升 15.6 倍。Fireworks AI 宣布与 MiniMax 合作,为本次发布提供推理支持。用户可前往 minimax.io 试用,模型权重发布后也将对 Fireworks 社区开放。这一突破显著降低了长上下文推理的延迟和成本,对需要处理超长文档、代码库或对话历史的开发者意义重大。
AI 翻译 · 中文
MiniMax 发布了新模型 M3,其核心创新是 MiniMax Sparse Attention (MSA) 机制,在 1M token 长上下文场景下解码速度提升 15.6 倍。Fireworks AI 宣布与 MiniMax 合作,为本次发布提供推理支持。用户可前往 minimax.io 试用,模型权重发布后也将对 Fireworks 社区开放。这一突破显著降低了长上下文推理的延迟和成本,对需要处理超长文档、代码库或对话历史的开发者意义重大。
MiniMax M3 arrives with MiniMax Sparse Attention (MSA), 15.6x faster decoding at 1M tokens. We're partnering with @MiniMax_AI to power the inference behind this week's launch. Head to minimax.io to take it for a …