AI产品精选73°

vLLM v0.23.0 发布:408 次提交,DeepSeek-V4 支持增强

vLLM v0.23.0 is out! 408 commits from 200 contribu…

精选理由

vLLM v0.23.0 大更新,DeepSeek-V4 和 Llama 用户值得升级,新的 KV 缓存卸载能省显存,推理与工具调用解析也更顺了。

AI 摘要

vLLM v0.23.0 包含 408 次提交,来自 200 位贡献者(63 位新贡献者)。主要亮点:DeepSeek-V4 在多个后端上成熟,引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified(无编码器)及 MTP 支持。还提供了多层级 KV 缓存卸载(含对象存储层)和统一的推理与工具调用解析器。

AI 翻译 · 中文

vLLM v0.23.0 包含 408 次提交,来自 200 位贡献者(63 位新贡献者)。主要亮点:DeepSeek-V4 在多个后端上成熟,引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified(无编码器)及 MTP 支持。还提供了多层级 KV 缓存卸载(含对象存储层)和统一的推理与工具调用解析器。

vLLMvLLM v0.23.0 is out! 408 commits from 200 contributors (63 new). 🎉 Highlights: DeepSeek-V4 matures across backends (TRTLLM-gen attention kernel, sparse MLA decoupled from V3.2, EPLB for the Mega-MoE), Model Runner V2 no
  • SuperTechFans06-16 23:26原文
  • AWS Machine Learning Blog06-15 20:24原文
  • Philipp Schmid06-17 14:44原文
  • @atomic_chat_hq05:00原文