推测解码中的接受理论：贪婪与宽松规则何时保证生成一致性

精选理由

这篇论文搞明白了推测解码里那些花式接受规则到底行不行，给出了数学保证，还在Qwen3上验证了，搞推理加速的值得一看。

AI 摘要

推测解码利用快速起草器生成候选 token，再由大模型验证以加速推理。现有理论主要针对随机采样，而实用系统多用贪婪解码和松弛接受规则。本文提出一类具有拒绝区域的接受准则，并给出其精确 KL 散度下界，覆盖严格贪婪、加性和乘性松弛、top-(m) 以及熵阈值等情形。对于树形解码，推导出目标贪婪 token 仍被起草器 top-(m) 覆盖的充分条件。在 Qwen3 模型上的实验表明，松弛和树形准则显著扩大了可保证接受的区域。

AI 翻译 · 中文

arXiv cs.LGSpeculative decoding accelerates language model inference by using a fast drafter to propose candidate tokens that are then verified by a larger target model. Existing theory largely studies the stochastic, distribution-…

阅读原文