SGLang在GB300 NVL72上创纪录，每GPU超12K tok/s

精选理由

SGLang在GB300上跑DeepSeek V4 Pro，每GPU超1.2万token

AI 摘要

SGLang在NVIDIA GB300 NVL72平台上，针对DeepSeek V4 Pro 1.6T模型（FP4精度，8K/1K上下文）实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo（SGLang）和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试，该性能在整个交互性曲线上保持稳定。

AI 翻译 · 中文

LMSYS Org (SGLang)🚀New record on GB300 NVL72: SGLang exceeds 12K tok/s per GPU on DeepSeek V4 Pro 1.6T (FP4, 8K/1K), orchestrated with NVIDIA Dynamo (SGLang) and MTP. Per @SemiAnalysis_ InferenceX benchmarks, performance stays strong a…

rohanpaul_ai06-13 01:55原文
Dylan Patel (SemiAnalysis)06-12 04:38原文
vLLM06-12 14:47原文
NVIDIA AI06-11 12:00原文
Tri Dao (FlashAttention)06-12 04:20原文
karminski-牙医 (AI工具)06-12 04:31原文
Sebastian Raschka06-12 04:42原文
Richard Socher06-11 15:30原文
Together AI06-11 20:04原文
Mira Murati (TML)06-12 04:29原文

查看原推