DFlash投机解码：并行起草整块token，在Blackwell上吞吐量提升15倍

精选理由

UC San Diego搞了个新方法DFlash，用扩散模型直接生成整段token，比自回归快几倍，Qwen3-8B上6倍加速，Blackwell上15倍，还开源了检查点，搞推理加速的可以看看。

AI 摘要

UC San Diego推出DFlash，用轻量级块扩散模型替代自回归起草器，实现投机解码。该方法通过单次前向传播生成整块token，并利用KV注入条件于目标隐藏特征。在Qwen3-8B上达到6.08倍无损加速，NVIDIA报告在Blackwell上固定交互性下吞吐量提升15倍。DFlash已发布20个检查点，支持SGLang、vLLM和TensorRT-LLM。

AI 翻译 · 中文

marktechpostUC San Diego's DFlash replaces autoregressive drafting with a lightweight block diffusion model for speculative decoding. It drafts whole token blocks in a single forward pass and conditions on target hidden features thr…

NVIDIA AI06-23 17:00原文
vLLM06-24 05:13原文
LMSYS Org (SGLang)06-23 17:02原文
IT之家06-23 01:57原文
lmarena.ai06-23 02:15原文
berryxia06-24 16:50原文

阅读原文