SGLang在GB300部署DeepSeek-V4：5倍吞吐量提升

精选理由

想用SGLang在GB300上榨干DeepSeek-V4？NVIDIA合作实测，吞吐翻5倍，交互延迟不变，MTP和量化细节全公开。

AI 摘要

与NVIDIA合作，在GB300上使用SGLang服务DeepSeek-V4，实现5倍吞吐量提升（~2,200→~11,200 tok/s/GPU，交互性~50 tok/s/user）。借助MTP，在80 tok/s/user交互性下吞吐再提升2.6倍。Blackwell Ultra聚合模式下30 tok/s/user时吞吐提升2.91倍，峰值无MTP吞吐提升超6倍。采用W4A4 MegaMoE量化（MXFP4）且精度损失可忽略。单个FP8-einsum修复将MTP接受率从0.57提至0.70。

AI 翻译 · 中文

LMSYS Org (SGLang)🚀 New blog: Serving DeepSeek-V4 on GB300 with SGLang: 5x Higher Throughput at the Same Interactivity Since Day-0 Together with @nvidia, we achieved 5X higher throughput at the same interactivity, serving DeepSeek-V4 on …

vLLM06-24 05:13原文
NVIDIA AI06-23 17:00原文
marktechpost06-24 07:21原文
techcrunch06-22 16:51原文
lmarena.ai06-23 02:15原文
IT之家06-23 04:01原文
berryxia06-24 16:50原文

查看原推