论文精选

Graft:剪枝+检索补偿,突破投机解码效率瓶颈

Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding

精选理由

做推理加速的团队终于有了一个不牺牲接受率的剪枝方案——Graft用检索补偿剪枝损失,直接提升EAGLE-3 21.8%的加速比,搞LLM部署的值得试试。

AI 摘要

投机解码通过草稿-验证范式加速大模型推理,但现有方法构建的庞大草稿树带来严重的显存带宽和计算开销。动态深度剪枝虽能减少延迟,却会丢弃潜在有效候选,导致接受率无法达到稠密树的上限。本文提出Graft框架,将剪枝与检索作为相互增强的操作:剪枝释放计算预算,检索补偿剪枝导致的覆盖损失并恢复接受长度。Graft采用“先剪后接”机制,以近乎零开销将高预测性的检索令牌填入剪枝空位,无需训练且无损。在短上下文、长上下文及大规模模型(如Qwen3-235B)上,Graft实现了最高5.41倍加速,平均加速比EAGLE-3提升21.8%,并初步探索了在非自回归草稿范式中的应用。

AI 翻译 · 中文

投机解码通过草稿-验证范式加速大模型推理,但现有方法构建的庞大草稿树带来严重的显存带宽和计算开销。动态深度剪枝虽能减少延迟,却会丢弃潜在有效候选,导致接受率无法达到稠密树的上限。本文提出Graft框架,将剪枝与检索作为相互增强的操作:剪枝释放计算预算,检索补偿剪枝导致的覆盖损失并恢复接受长度。Graft采用“先剪后接”机制,以近乎零开销将高预测性的检索令牌填入剪枝空位,无需训练且无损。在短上下文、长上下文及大规模模型(如Qwen3-235B)上,Graft实现了最高5.41倍加速,平均加速比EAGLE-3提升21.8%,并初步探索了在非自回归草稿范式中的应用。

arXiv cs.LGSpeculative decoding (SD) accelerates large language model inference by leveraging a draft-then-verify paradigm. To maximize the acceptance rate, recent methods construct expansive draft trees, which unfortunately incur