10:16arXiv: DeepSeek@Luxi Lin, Shuang Peng, Rui Ma, Junhao Hua, Shuwei Fan, Zhengda Qin, Qiang Wang, Hongjian Sun, Fangmin Chen, Songwei LiuHyperDFlash是一种针对DeepSeek-V4多超连接架构的块并行推测解码框架。它通过预折叠残差状态保持多路径结构,并用门控残差缩减器将参数减少三个数量级。同时引入KL蒸馏损失正则化LM-head预测。在数学推理、代码合成和对话基准上,HyperDFlash的平均接受长度和解码加速比均优于原生MTP和DFlash基线。AI模型HyperDFlashDeepSeek-V4MTPDFlash推测解码推荐理由:DeepSeek-V4新出的HyperDFlash框架,用门控缩减和蒸馏让推测解码提速,比MTP和DFlash都厉害。原文
15:30marktechpost@Asif Razzaq76°UC San Diego推出DFlash,用轻量级块扩散模型替代自回归起草器,实现投机解码。该方法通过单次前向传播生成整块token,并利用KV注入条件于目标隐藏特征。在Qwen3-8B上达到6.08倍无损加速,NVIDIA报告在Blackwell上固定交互性下吞吐量提升15倍。DFlash已发布20个检查点,支持SGLang、vLLM和TensorRT-LLM。AI模型DFlashQwen3-8BNVIDIA Blackwell投机解码推理加速8 个信源在谈推荐理由:UC San Diego搞了个新方法DFlash,用扩散模型直接生成整段token,比自回归快几倍,Qwen3-8B上6倍加速,Blackwell上15倍,还开源了检查点,搞推理加速的可以看看。原文
13:13vLLM@vllm_projectvLLM 项目宣布支持 DFlash 投机解码,用户只需将 EAGLE-3 检查点替换为 DFlash 检查点即可启用,无需修改代码。该功能通过开源 Speculators 库将 DFlash 草案模型与目标模型的隐藏状态连接。在单块 Blackwell Ultra GPU 上运行 Gemma-4 31B 模型,Math500 基准取得 5.8 倍吞吐量提升,GSM8K 提升 5.3 倍,HumanEval 提升 5.6 倍,MBPP 提升 4.4 倍。AI模型DFlashvLLMGemma-4NVIDIA推理优化10 个信源在谈推荐理由:vLLM 和 NVIDIA 合作推出 DFlash 投机解码,Gemma-4 31B 推理速度提升近 6 倍,配置只需改一行 checkpoint 路径。原文
03:18NVIDIA AI@NVIDIAAI精选NVIDIA发布DFlash,一种开源轻量级块扩散模型,专为投机解码设计。在NVIDIA Blackwell硬件上,DFlash可实现高达15倍的推理吞吐量提升,同时保持相同的用户交互响应速度。与传统逐token解码不同,DFlash一次生成整个token块,由主模型并行验证。该方案即插即用,已集成到SGLang、TensorRT-LLM和vLLM等框架中。AI模型DFlashNVIDIABlackwell投机解码开源模型8 个信源在谈推荐理由:NVIDIA开源了DFlash,用块扩散投机解码让Blackwell推理提速15倍,还支持SGLang和vLLM,随手就能用。原文
02:16LMSYS Org (SGLang)@lmsysorg76°LMSYS 发布博客介绍 DFlash 和 Spec V2 推测解码技术。在 8 块 B200 上,针对 HumanEval 基准,DFlash + Spec V2 实现超过 4.3 倍基线吞吐量和 1.5 倍原生 MTP 吞吐量。其核心包括块扩散起草器(一次前向传播生成完整 token 块)和 KV 注入(目标模型特征馈入每层 KV 缓存),以及 Spec V2 重叠调度器带来 33% 端到端提升。该方案现已作为 SGLang 的默认推测解码引擎。AI模型DFlashSpec V2SGLang推测解码推理加速推荐理由:LMSYS 和 Modal 联手推出了 DFlash,让 Qwen 3.5 的推理速度比原生 MTP 快 1.5 倍,比基线快 4.3 倍,代码已开源,玩起来!原文