精选理由
做LLM推理加速的团队终于有了一个能动态分配验证资源的方案——在智能体工作流中平均加速2.73倍,比EAGLE3还强,搞推测解码的开发者值得点开看看具体实现。
大语言模型的自回归生成成本高昂,推测解码通过草拟多个token并一次性验证来加速,但加速效果取决于草稿被接受的长度。无参数草稿源在结构化任务和智能体工作流中能以低成本生成长序列,但缓存匹配的收益在不同步骤间波动。本文提出Hybrid Verified Decoding,在验证前预测缓存草稿的接受长度,并据此选择缓存验证或基于模型的草稿器。在三个LLM和十六个数据集上,该方法在智能体工作流中表现尤为突出,平均加速2.73倍,全面超越EAGLE3。分析揭示了提示结构如何创造缓存机会、高收益缓存草稿如何集中在少数区域,以及收益引导的选择如何减少顺序解码工作量。
AI 翻译 · 中文
大语言模型的自回归生成成本高昂,推测解码通过草拟多个token并一次性验证来加速,但加速效果取决于草稿被接受的长度。无参数草稿源在结构化任务和智能体工作流中能以低成本生成长序列,但缓存匹配的收益在不同步骤间波动。本文提出Hybrid Verified Decoding,在验证前预测缓存草稿的接受长度,并据此选择缓存验证或基于模型的草稿器。在三个LLM和十六个数据集上,该方法在智能体工作流中表现尤为突出,平均加速2.73倍,全面超越EAGLE3。分析揭示了提示结构如何创造缓存机会、高收益缓存草稿如何集中在少数区域,以及收益引导的选择如何减少顺序解码工作量。
Large Language Model (LLM) generation remains expensive because autoregressive decoding calls the model once for each new token. Speculative decoding reduces this cost by drafting multiple tokens and verifying them with …