AI模型精选73°

DeepSeek开源DSpark投机解码框架,推理提速60-85%

兄弟们,DeepSeek开源了DSpark! 一个投机解码框架,不是新模型,是推理优化。 核心问…

精选理由

DeepSeek开源了DSpark框架,能让你的V4模型推理提速60%以上,且不影响质量。它解决了投机解码在真实部署中的难题,已经稳定跑在生产环境。

AI 摘要

DeepSeek开源了DSpark投机解码框架,用于推理优化。DSpark通过并行backbone加顺序Markov head解决传统投机解码的后缀衰减问题,并引入置信度调度和负载感知调度器。在DeepSeek-V4生产环境中,单用户生成速度比MTP-1基线快60-85%,不同场景吞吐提升1.5x到5x。开源内容包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark模型checkpoint以及MIT协议的DeepSpec训练代码。

AI 翻译 · 中文

DeepSeek开源了DSpark投机解码框架,用于推理优化。DSpark通过并行backbone加顺序Markov head解决传统投机解码的后缀衰减问题,并引入置信度调度和负载感知调度器。在DeepSeek-V4生产环境中,单用户生成速度比MTP-1基线快60-85%,不同场景吞吐提升1.5x到5x。开源内容包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark模型checkpoint以及MIT协议的DeepSpec训练代码。

berryxia兄弟们,DeepSeek开源了DSpark! 一个投机解码框架,不是新模型,是推理优化。 核心问题:传统投机解码里,一个小的draft模型先猜一串token,然后大模型一次性验证。 问题是猜的越后面越容易错,验证错误的猜测也浪费GPU算力。 DSpark的解法: 1. 并行backbone + 顺序head混合。 纯并行猜测速度快,但后面的token会衰减,因为每个位置猜的时候不知道前面实际采样了什么。 DSpark加了一个小的Mark