AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:DFlash×
6月24日
13:13
13:13vLLM@vllm_project
vLLM 项目宣布支持 DFlash 投机解码,用户只需将 EAGLE-3 检查点替换为 DFlash 检查点即可启用,无需修改代码。该功能通过开源 Speculators 库将 DFlash 草案模型与目标模型的隐藏状态连接。在单块 Blackwell Ultra GPU 上运行 Gemma-4 31B 模型,Math500 基准取得 5.8 倍吞吐量提升,GSM8K 提升 5.3 倍,HumanEval 提升 5.6 倍,MBPP 提升 4.4 倍。
AI模型DFlashvLLMGemma-4NVIDIA推理优化

推荐理由:vLLM 和 NVIDIA 合作推出 DFlash 投机解码,Gemma-4 31B 推理速度提升近 6 倍,配置只需改一行 checkpoint 路径。
原文
03:18
03:18NVIDIA AI@NVIDIAAI
精选
NVIDIA发布DFlash,一种开源轻量级块扩散模型,专为投机解码设计。在NVIDIA Blackwell硬件上,DFlash可实现高达15倍的推理吞吐量提升,同时保持相同的用户交互响应速度。与传统逐token解码不同,DFlash一次生成整个token块,由主模型并行验证。该方案即插即用,已集成到SGLang、TensorRT-LLM和vLLM等框架中。
AI模型DFlashNVIDIABlackwell投机解码开源模型

推荐理由:NVIDIA开源了DFlash,用块扩散投机解码让Blackwell推理提速15倍,还支持SGLang和vLLM,随手就能用。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
02:16
02:16LMSYS Org (SGLang)@lmsysorg
76°
LMSYS 发布博客介绍 DFlash 和 Spec V2 推测解码技术。在 8 块 B200 上,针对 HumanEval 基准,DFlash + Spec V2 实现超过 4.3 倍基线吞吐量和 1.5 倍原生 MTP 吞吐量。其核心包括块扩散起草器(一次前向传播生成完整 token 块)和 KV 注入(目标模型特征馈入每层 KV 缓存),以及 Spec V2 重叠调度器带来 33% 端到端提升。该方案现已作为 SGLang 的默认推测解码引擎。
AI模型DFlashSpec V2SGLang推测解码推理加速

推荐理由:LMSYS 和 Modal 联手推出了 DFlash,让 Qwen 3.5 的推理速度比原生 MTP 快 1.5 倍,比基线快 4.3 倍,代码已开源,玩起来!
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录