vLLM v0.24.0 发布：支持 MiniMax-M3 和 DeepSeek-V4

精选理由

vLLM新版本来了！支持MiniMax-M3和DeepSeek-V4，还有新解析器和量化模型处理，推理效率更高。

AI 摘要

vLLM v0.24.0 发布，包含571次提交和256位贡献者（77位新贡献者）。新增 MiniMax-M3 模型支持，包括 FP8/MXFP4 精度和 AMD 调优。DeepSeek-V4 集成 FlashInfer 稀疏索引缓存和 prefill chunk-planning，并支持 SM120。Model Runner V2 默认处理量化模型，引入统一流式解析器引擎，支持工具调用与推理，另有 DiffusionGemma、DeepEP v2 和 Rust 前端更新。

AI 翻译 · 中文

vLLMvLLM v0.24.0 is out! 571 commits from 256 contributors (77 new). 🎉 Highlights: MiniMax-M3 support (FP8/MXFP4 + broad AMD tuning), DeepSeek-V4 keeps maturing (FlashInfer sparse index cache, prefill chunk-planning, now on…

Together AI06-29 05:51原文
Pandaily06-29 08:24原文
Browser Use06-29 07:48原文
Guillermo Rauch06-29 17:52原文
Viking06-30 01:52原文

查看原推