北大与DeepSeek开源DSpark推理加速框架，速度提升60%-85%

精选理由

北大和DeepSeek开源了DSpark，能让高并发下大模型生成速度提升最多85%。想提速可以试试。

AI 摘要

6月27日，北大与DeepSeek联合开源DSpark推理加速框架，已部署于DeepSeek-V4-Flash与V4-Pro预览版引擎。该框架相比单token推测解码基线MTP-1，在同等吞吐量下将单用户生成速度提升60%至85%。DSpark采用半自回归架构，在Qwen3-4B模型上平均接受长度比Eagle3提升约30.9%，比DFlash提升约16.3%。V4-Flash引擎实测中，80 token/s SLA下聚合吞吐量提升51%，120 token/s下提升661%。相关论文、训练代码及模型检查点已在GitHub DeepSpec项目开源。

AI 翻译 · 中文

IT之家IT之家 6 月 27 日消息，今日，DeepSeek 联合北京大学正式发布 DSpark 推理加速框架，旨在解决大语言模型在高并发生产环境中的推理效率瓶颈。该框架已部署于 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的预览版服务引擎中，相比此前生产环境采用的单 token 推测解码基线 MTP-1，在同等吞吐量水平下可将单用户生成速度提升 60% 至 85%。相关论文、训练代码及模型检查点已在 GitHu…

marktechpost06-27 16:59原文

阅读原文