块验证加速扩散模型推测解码,Free Drafter 无需训练提升 6.3%

Accelerating Speculative Diffusions via Block Verification

精选理由

扩散模型推理加速有了新解法——块验证让草稿接受率更高,做生成式 AI 推理优化的团队可以直接参考 Free Drafter 的无训练方案,实测有 6.3% 的提速收益。

AI 摘要

该论文提出了一种针对扩散模型的高效推测采样方案,将大语言模型中的块验证技术适配到连续扩散空间,显著提高了草稿的接受率。现有方法在连续空间中采样残差分布时计算效率低,而新方案通过块验证实现了更高效的并行验证。作者还形式化了 Free Drafter——一种无需训练的启发式自推测草稿生成器。实验表明,Free Drafter 在现有推测方法基础上实现了最高 6.3% 的加速,且几乎无额外开销。这项工作为扩散模型的推理加速提供了新思路,尤其适用于需要快速生成高质量样本的场景。

AI 翻译 · 中文

该论文提出了一种针对扩散模型的高效推测采样方案,将大语言模型中的块验证技术适配到连续扩散空间,显著提高了草稿的接受率。现有方法在连续空间中采样残差分布时计算效率低,而新方案通过块验证实现了更高效的并行验证。作者还形式化了 Free Drafter——一种无需训练的启发式自推测草稿生成器。实验表明,Free Drafter 在现有推测方法基础上实现了最高 6.3% 的加速,且几乎无额外开销。这项工作为扩散模型的推理加速提供了新思路,尤其适用于需要快速生成高质量样本的场景。

arXiv cs.LGSpeculative decoding speeds up LLM inference by using a draft model to generate tokens, with an acceptance-rejection scheme that ensures that the output matches the target distribution. Adapting this to continuous diffus