精选理由
M3 的 1M 上下文和稀疏注意力架构解决了长文档和复杂智能体任务的性能瓶颈,做 RAG、代码分析和自动化工作流的团队可以直接在 vLLM 上部署试用。
MiniMax AI 发布了新一代开源模型 MiniMax M3,具备前沿的编码和智能体能力,原生支持图像和视频输入、计算机使用功能,并拥有 100 万 token 的上下文窗口。其核心是 MSA(MiniMax Sparse Attention)稀疏注意力架构,通过仅对 top 128-token KV 块进行注意力计算,大幅降低了长上下文推理的计算成本。M3 已在 vLLM 中实现首日支持,可在 NVIDIA 和 AMD 硬件上运行,支持 BF16 和 MXFP8 检查点、MoE 后端、多模态输入、工具调用和推理控制。这一成果是 MiniMax、NVIDIA、AMD 和 vLLM 社区合作的结晶。
AI 翻译 · 中文
MiniMax AI 发布了新一代开源模型 MiniMax M3,具备前沿的编码和智能体能力,原生支持图像和视频输入、计算机使用功能,并拥有 100 万 token 的上下文窗口。其核心是 MSA(MiniMax Sparse Attention)稀疏注意力架构,通过仅对 top 128-token KV 块进行注意力计算,大幅降低了长上下文推理的计算成本。M3 已在 vLLM 中实现首日支持,可在 NVIDIA 和 AMD 硬件上运行,支持 BF16 和 MXFP8 检查点、MoE 后端、多模态输入、工具调用和推理控制。这一成果是 MiniMax、NVIDIA、AMD 和 vLLM 社区合作的结晶。
🎉 Congrats to @MiniMax_AI on releasing MiniMax M3! Frontier coding and agentic capabilities, native image and video input, computer use, and a 1M-token context window, all in a single open model. At the heart of M3 is M…