DFlash开源块扩散模型，推理吞吐量提升15倍

精选理由

NVIDIA开源了DFlash，用块扩散投机解码让Blackwell推理提速15倍，还支持SGLang和vLLM，随手就能用。

AI 摘要

NVIDIA发布DFlash，一种开源轻量级块扩散模型，专为投机解码设计。在NVIDIA Blackwell硬件上，DFlash可实现高达15倍的推理吞吐量提升，同时保持相同的用户交互响应速度。与传统逐token解码不同，DFlash一次生成整个token块，由主模型并行验证。该方案即插即用，已集成到SGLang、TensorRT-LLM和vLLM等框架中。

AI 翻译 · 中文

NVIDIA AIIncrease inference performance by up to 15x without sacrificing responsiveness. DFlash, an open source lightweight block diffusion model designed for speculative decoding, delivers up to 15x higher throughput on NVIDIA B…

marktechpost06-24 07:21原文
vLLM06-24 05:13原文
lmarena.ai06-23 02:15原文
LMSYS Org (SGLang)06-23 17:02原文
IT之家06-22 13:30原文
techcrunch06-22 16:51原文
berryxia06-24 16:50原文

查看原推