13:11pandaily@contact@pandaily.com (Pandaily)DeepSeek 发布 DSpark 推测解码框架,可将文本生成速度提升 80%。该框架优化推理效率,标志着 AI 竞争焦点从训练规模转向实际部署。DSpark 采用推测解码技术,通过小模型草稿加速大模型生成。AI模型DeepSeekDSpark推理加速推测解码推荐理由:DeepSeek 的 DSpark 框架让模型生成快八成,推理部署更省算力,搞推理优化的可以看看。原文
01:07marktechpost@Asif Razzaq79°DeepSeek开源了DSpark框架,通过将草稿模块附加到现有DeepSeek-V4权重上实现推测解码。它结合并行草稿骨干和轻量级马尔可夫头来减少后缀衰减,并加入基于置信度的调度验证,根据实时GPU负载调整检查token数量。离线测试中,接受长度相比DFlash和Eagle3提升16-31%;生产环境中每个用户生成速度比MTP-1基线提升57-85%,且无损。训练代码DeepSpec以MIT许可证开源。AI模型DSparkDeepSeek-V4DeepSeek推测解码推理加速1 个信源在谈推荐理由:DeepSeek搞了个DSpark,让V4推理速度翻倍,开源还无损,适合高并发场景。原文
10:16arXiv: DeepSeek@Luxi Lin, Shuang Peng, Rui Ma, Junhao Hua, Shuwei Fan, Zhengda Qin, Qiang Wang, Hongjian Sun, Fangmin Chen, Songwei LiuHyperDFlash是一种针对DeepSeek-V4多超连接架构的块并行推测解码框架。它通过预折叠残差状态保持多路径结构,并用门控残差缩减器将参数减少三个数量级。同时引入KL蒸馏损失正则化LM-head预测。在数学推理、代码合成和对话基准上,HyperDFlash的平均接受长度和解码加速比均优于原生MTP和DFlash基线。AI模型HyperDFlashDeepSeek-V4MTPDFlash推测解码推荐理由:DeepSeek-V4新出的HyperDFlash框架,用门控缩减和蒸馏让推测解码提速,比MTP和DFlash都厉害。原文
01:55AWS Machine Learning Blog@Andy Peng精选本文介绍如何利用Amazon SageMaker AI中的P-EAGLE方法并行化推测解码,加速生成式AI推理。用户可从SageMaker JumpStart目录中选择兼容模型,并配置并行草稿生成参数。通过部署优化的实时SageMaker AI端点,可显著降低推理延迟。P-EAGLE基于EAGLE框架,支持多头并行推测,适用于Llama等主流模型。技巧P-EAGLEAmazon SageMaker AISageMaker JumpStart推测解码推理加速推荐理由:AWS教你用P-EAGLE在SageMaker上把推理加速好几倍,选模型调参数就能部署,简单实用。原文
20:28Tri Dao (FlashAttention)@tri_dao精选在运行大规模上下文智能体时,Qwen 3.5和Nemotron Ultra等混合模型面临Gated-DeltaNet/Mamba状态的瓶颈。一个简单洞察是加载状态并计算但不存储,可使速度提升2倍。该重计算技巧最终解锁了状态空间模型(SSM)的推测解码(spec decoding)功能。技巧Qwen 3.5Nemotron UltraMambaSSM推测解码1 个信源在谈推荐理由:不用存状态,算完就扔,SSM推理直接快一倍,Qwen 3.5和Nemotron Ultra用户试试这个技巧。原文
02:16LMSYS Org (SGLang)@lmsysorg76°LMSYS 发布博客介绍 DFlash 和 Spec V2 推测解码技术。在 8 块 B200 上,针对 HumanEval 基准,DFlash + Spec V2 实现超过 4.3 倍基线吞吐量和 1.5 倍原生 MTP 吞吐量。其核心包括块扩散起草器(一次前向传播生成完整 token 块)和 KV 注入(目标模型特征馈入每层 KV 缓存),以及 Spec V2 重叠调度器带来 33% 端到端提升。该方案现已作为 SGLang 的默认推测解码引擎。AI模型DFlashSpec V2SGLang推测解码推理加速推荐理由:LMSYS 和 Modal 联手推出了 DFlash,让 Qwen 3.5 的推理速度比原生 MTP 快 1.5 倍,比基线快 4.3 倍,代码已开源,玩起来!原文
09:57arXiv cs.LG@Alexander Soen, Hisham Husain, Valentin De Bortoli, Arnaud Doucet该论文提出了一种针对扩散模型的高效推测采样方案,将大语言模型中的块验证技术适配到连续扩散空间,显著提高了草稿的接受率。现有方法在连续空间中采样残差分布时计算效率低,而新方案通过块验证实现了更高效的并行验证。作者还形式化了 Free Drafter——一种无需训练的启发式自推测草稿生成器。实验表明,Free Drafter 在现有推测方法基础上实现了最高 6.3% 的加速,且几乎无额外开销。这项工作为扩散模型的推理加速提供了新思路,尤其适用于需要快速生成高质量样本的场景。论文扩散模型推测解码推理加速块验证Free Drafter推荐理由:扩散模型推理加速有了新解法——块验证让草稿接受率更高,做生成式 AI 推理优化的团队可以直接参考 Free Drafter 的无训练方案,实测有 6.3% 的提速收益。原文
12:02arXiv cs.LG@Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou精选83°强化学习(RL)训练中,rollout 阶段是主要瓶颈。多 Token 预测(MTP)本可通过推测解码加速,但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系,并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数,直接优化拒绝采样接受率,在数学推理、代码生成和智能体任务上实现最高 95% 接受率,吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上,异步 RL 训练端到端加速达 1.8 倍,且无需在线更新 MTP。论文强化学习多 Token 预测推测解码拒绝采样Qwen推荐理由:RL 训练加速是 LLM 后训练的核心痛点,Bebop 用 MTP+拒绝采样把加速做到 1.8 倍,做 RL 训练优化的团队可以直接参考其 TV 损失和离线训练策略。原文
12:00arXiv cs.AI@Junxia Cui, Haotian Ye, Runchu Tian, Hongcan Guo, Jinya Jiang, Haoru Li, Chaojie Ren, Yiming Huang, Kaijie Zhu, Zhongkai Yu, Kun Zhou, Jingbo Shang精选扩散大语言模型(dLLMs)作为自回归(AR)模型的替代方案,通过并行或块解码实现更快推理,但其掩码语言建模公式与标准token级推测解码不兼容。AR模型利用因果掩码实现单次前向验证多个草稿token,而dLLMs依赖掩码token和双向注意力,导致有效上下文随去噪步骤变化,无法直接进行token级推测验证。为此,研究者提出SimSD,一种简单有效的推测解码算法,采用即插即用的掩码策略,为dLLMs提供时间上有效的token级上下文。该方法显式引入草稿模型的参考token,并设计注意力掩码调节其与当前步骤token的交互,使dLLMs能在单次前向前向计算草稿token的有效logits,恢复AR模型的验证能力同时保持dLLMs的并行解码优势。SimSD无需训练,可灵活集成KV缓存和块解码等加速技术,在四个基准测试中实现高达7.46倍的解码吞吐量提升,同时保持甚至改善平均生成质量。论文推测解码扩散语言模型推理加速掩码策略训练无关推荐理由:扩散语言模型终于有了实用的推测解码方案,做模型推理加速的团队可以直接集成SimSD,无需额外训练就能获得数倍吞吐提升,值得关注。原文
09:39arXiv cs.AI@Xin Su, Dawid Majchrowski, Fangyuan Yu, Vanshil Atul Shah, Sebastian Rogawski, Pawel Morkisz, Anahita Bhiwandiwalla, Phillip Howard大语言模型的自回归生成成本高昂,推测解码通过草拟多个token并一次性验证来加速,但加速效果取决于草稿被接受的长度。无参数草稿源在结构化任务和智能体工作流中能以低成本生成长序列,但缓存匹配的收益在不同步骤间波动。本文提出Hybrid Verified Decoding,在验证前预测缓存草稿的接受长度,并据此选择缓存验证或基于模型的草稿器。在三个LLM和十六个数据集上,该方法在智能体工作流中表现尤为突出,平均加速2.73倍,全面超越EAGLE3。分析揭示了提示结构如何创造缓存机会、高收益缓存草稿如何集中在少数区域,以及收益引导的选择如何减少顺序解码工作量。论文推测解码推理加速智能体工作流缓存机制EAGLE3推荐理由:做LLM推理加速的团队终于有了一个能动态分配验证资源的方案——在智能体工作流中平均加速2.73倍,比EAGLE3还强,搞推测解码的开发者值得点开看看具体实现。原文
15:30marktechpost@Michal Sutter72°EAGLE 团队联合 vLLM 和 TorchSpec 发布了 EAGLE 3.1,旨在解决生产环境中推测解码的不稳定性。该算法通过修复注意力漂移问题,提升了 LLM 推理的效率和可靠性。EAGLE 3.1 针对大规模部署场景优化,减少了推理延迟和资源消耗。这一更新对于需要高性能 LLM 推理的团队具有重要意义。AI模型EAGLE 3.1推测解码注意力漂移LLM 推理vLLM推荐理由:EAGLE 3.1 解决了生产环境中推测解码的稳定性痛点,做 LLM 推理优化的团队可以直接用上,减少注意力漂移带来的性能损失。原文
14:13Cohere@cohere精选Cohere 发布技术报告,指出基于混合专家模型(MoE)的大型语言模型在推测解码(speculative decoding)中表现更优,打破了传统认知。推测解码是一种加速推理的技术,通常认为对密集模型更有效,但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本,推动 MoE 模型在实时应用中的部署。论文MoE推测解码推理加速Cohere技术报告推荐理由:做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构,建议点开报告看具体数据。原文
00:33Google Developers Blog(博客/媒体)加州大学圣地亚哥分校研究者将DFlash(一种块扩散推测解码方法)成功部署到Google TPU上,通过单次前向传播“绘制”整个候选词块,绕过传统自回归逐步预测的顺序瓶颈。该系统在TPU上实现了平均3.13倍的加速,峰值性能接近现有EAGLE-3方法的两倍。该开源方案已集成至vLLM生态,利用TPU的免费并行验证和高品质草稿预测,显著提升复杂推理任务的效率。AI模型推理加速推测解码TPU开源/仓库vLLM推荐理由:这一工作展示了扩散式推测解码在TPU上的实际落地价值,突破传统推测解码的顺序瓶颈,尤其利好大规模LLM推理场景。开源集成至vLLM有助于行业快速采用。原文
11:43arXiv cs.LG(学术论文)字节级语言模型(BLT)虽匹配词元级模型性能,但逐字节自回归生成速度慢。本文提出三种加速方法:BLT Diffusion(BLT-D)用辅助扩散目标并行生成多个字节;BLT Self-speculation(BLT-S)通过推测解码扩展补丁边界并验证;BLT Diffusion+Verification(BLT-DV)结合扩散与自回归验证。所有方法在生成任务上估计内存带宽成本降低超50%,消除字节级模型实用化障碍。论文字节级模型推理加速扩散模型推测解码无分词器推荐理由:该工作直接解决字节级LLM的核心效率瓶颈,提出的混合推理策略(扩散+推测解码)为无分词器模型走向实际应用提供了可行路径。原文