AI模型精选

DeepSeek DSpark 投机解码原生集成 vLLM,性能提升显著

🚀 @deepseek_ai's DSpark speculative decoding now r…

精选理由

DeepSeek 把 DSpark 开源自带进 vLLM,跑 DeepSeek-V4 实测单卡 250 token/s,比 MTP 快 12-42%,想搞投机解码的可以试试。

AI 摘要

DeepSeek 的 DSpark 投机解码技术现已原生集成到 vLLM 推理框架中。DSpark 是一种半自回归草稿模型,通过非因果滑动窗口注意力并行生成多个 token,单次验证即可保持输出一致,减少解码步数。在 NVIDIA 8×B300 GPU 上,DeepSeek-V4-Pro-DSpark 在 batch size 1 时达到约 250 tokens/s,平均接受长度约 5,且在不同草稿深度下比 MTP 方法接受率高 12-42%。vLLM 通过复用 SparseMLA 后端、捕获完整草稿主干和采样循环到单一 CUDA graph,并支持前缀缓存和 FP8 KV cache。

AI 翻译 · 中文

DeepSeek 的 DSpark 投机解码技术现已原生集成到 vLLM 推理框架中。DSpark 是一种半自回归草稿模型,通过非因果滑动窗口注意力并行生成多个 token,单次验证即可保持输出一致,减少解码步数。在 NVIDIA 8×B300 GPU 上,DeepSeek-V4-Pro-DSpark 在 batch size 1 时达到约 250 tokens/s,平均接受长度约 5,且在不同草稿深度下比 MTP 方法接受率高 12-42%。vLLM 通过复用 SparseMLA 后端、捕获完整草稿主干和采样循环到单一 CUDA graph,并支持前缀缓存和 FP8 KV cache。

vLLM🚀 @deepseek_ai's DSpark speculative decoding now runs natively in vLLM! What it is: a semi-autoregressive drafter that proposes several tokens in parallel with non-causal sliding-window attention, then verifies them in