DeepSeek DSpark 投机解码原生集成 vLLM，性能提升显著

精选理由

DeepSeek 把 DSpark 开源自带进 vLLM，跑 DeepSeek-V4 实测单卡 250 token/s，比 MTP 快 12-42%，想搞投机解码的可以试试。

AI 摘要

DeepSeek 的 DSpark 投机解码技术现已原生集成到 vLLM 推理框架中。DSpark 是一种半自回归草稿模型，通过非因果滑动窗口注意力并行生成多个 token，单次验证即可保持输出一致，减少解码步数。在 NVIDIA 8×B300 GPU 上，DeepSeek-V4-Pro-DSpark 在 batch size 1 时达到约 250 tokens/s，平均接受长度约 5，且在不同草稿深度下比 MTP 方法接受率高 12-42%。vLLM 通过复用 SparseMLA 后端、捕获完整草稿主干和采样循环到单一 CUDA graph，并支持前缀缓存和 FP8 KV cache。

AI 翻译 · 中文

vLLM🚀 @deepseek_ai's DSpark speculative decoding now runs natively in vLLM! What it is: a semi-autoregressive drafter that proposes several tokens in parallel with non-causal sliding-window attention, then verifies them in …

LMSYS Org (SGLang)07-01 16:09原文
IT之家07-01 05:41原文
NVIDIA AI07-01 19:00原文
marktechpost07-01 08:10原文
Decoder06-30 15:23原文
Jim Fan06-30 17:07原文
Nous Research06-30 19:13原文
AWS Machine Learning Blog07-01 18:14原文

查看原推