vLLM v0.24.0 发布:支持 MiniMax-M3 和 DeepSeek-V4

vLLM v0.24.0 is out! 571 commits from 256 contribu…

精选理由

vLLM新版本来了!支持MiniMax-M3和DeepSeek-V4,还有新解析器和量化模型处理,推理效率更高。

AI 摘要

vLLM v0.24.0 发布,包含571次提交和256位贡献者(77位新贡献者)。新增 MiniMax-M3 模型支持,包括 FP8/MXFP4 精度和 AMD 调优。DeepSeek-V4 集成 FlashInfer 稀疏索引缓存和 prefill chunk-planning,并支持 SM120。Model Runner V2 默认处理量化模型,引入统一流式解析器引擎,支持工具调用与推理,另有 DiffusionGemma、DeepEP v2 和 Rust 前端更新。

AI 翻译 · 中文

vLLM v0.24.0 发布,包含571次提交和256位贡献者(77位新贡献者)。新增 MiniMax-M3 模型支持,包括 FP8/MXFP4 精度和 AMD 调优。DeepSeek-V4 集成 FlashInfer 稀疏索引缓存和 prefill chunk-planning,并支持 SM120。Model Runner V2 默认处理量化模型,引入统一流式解析器引擎,支持工具调用与推理,另有 DiffusionGemma、DeepEP v2 和 Rust 前端更新。

vLLMvLLM v0.24.0 is out! 571 commits from 256 contributors (77 new). 🎉 Highlights: MiniMax-M3 support (FP8/MXFP4 + broad AMD tuning), DeepSeek-V4 keeps maturing (FlashInfer sparse index cache, prefill chunk-planning, now on