推测解码中的接受理论:贪婪与宽松规则何时保证生成一致性

When Is a Draft Accepted? A Theory of Acceptance in Speculative Decoding

精选理由

这篇论文搞明白了推测解码里那些花式接受规则到底行不行,给出了数学保证,还在Qwen3上验证了,搞推理加速的值得一看。

AI 摘要

推测解码利用快速起草器生成候选 token,再由大模型验证以加速推理。现有理论主要针对随机采样,而实用系统多用贪婪解码和松弛接受规则。本文提出一类具有拒绝区域的接受准则,并给出其精确 KL 散度下界,覆盖严格贪婪、加性和乘性松弛、top-(m) 以及熵阈值等情形。对于树形解码,推导出目标贪婪 token 仍被起草器 top-(m) 覆盖的充分条件。在 Qwen3 模型上的实验表明,松弛和树形准则显著扩大了可保证接受的区域。

AI 翻译 · 中文

推测解码利用快速起草器生成候选 token,再由大模型验证以加速推理。现有理论主要针对随机采样,而实用系统多用贪婪解码和松弛接受规则。本文提出一类具有拒绝区域的接受准则,并给出其精确 KL 散度下界,覆盖严格贪婪、加性和乘性松弛、top-(m) 以及熵阈值等情形。对于树形解码,推导出目标贪婪 token 仍被起草器 top-(m) 覆盖的充分条件。在 Qwen3 模型上的实验表明,松弛和树形准则显著扩大了可保证接受的区域。

arXiv cs.LGSpeculative decoding accelerates language model inference by using a fast drafter to propose candidate tokens that are then verified by a larger target model. Existing theory largely studies the stochastic, distribution-