AI模型精选73°

SGLang在GB300 NVL72上创纪录,每GPU超12K tok/s

🚀New record on GB300 NVL72: SGLang exceeds 12K tok…

精选理由

SGLang在GB300上跑DeepSeek V4 Pro,每GPU超1.2万token

AI 摘要

SGLang在NVIDIA GB300 NVL72平台上,针对DeepSeek V4 Pro 1.6T模型(FP4精度,8K/1K上下文)实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo(SGLang)和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试,该性能在整个交互性曲线上保持稳定。

AI 翻译 · 中文

SGLang在NVIDIA GB300 NVL72平台上,针对DeepSeek V4 Pro 1.6T模型(FP4精度,8K/1K上下文)实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo(SGLang)和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试,该性能在整个交互性曲线上保持稳定。

LMSYS Org (SGLang)🚀New record on GB300 NVL72: SGLang exceeds 12K tok/s per GPU on DeepSeek V4 Pro 1.6T (FP4, 8K/1K), orchestrated with NVIDIA Dynamo (SGLang) and MTP. Per @SemiAnalysis_ InferenceX benchmarks, performance stays strong a
  • rohanpaul_ai06-13 01:55原文
  • Dylan Patel (SemiAnalysis)06-12 04:38原文
  • vLLM06-12 14:47原文
  • NVIDIA AI06-11 12:00原文
  • Tri Dao (FlashAttention)06-12 04:20原文
  • karminski-牙医 (AI工具)06-12 04:31原文
  • Sebastian Raschka06-12 04:42原文
  • Richard Socher06-11 15:30原文
  • Together AI06-11 20:04原文
  • Mira Murati (TML)06-12 04:29原文