全部 AI 动态 · AI 热点

6月28日

13:11

13:11

pandaily@contact@pandaily.com (Pandaily)

DeepSeek 发布 DSpark 推测解码框架，可将文本生成速度提升 80%。该框架优化推理效率，标志着 AI 竞争焦点从训练规模转向实际部署。DSpark 采用推测解码技术，通过小模型草稿加速大模型生成。

AI模型 DeepSeek DSpark 推理加速推测解码

推荐理由：DeepSeek 的 DSpark 框架让模型生成快八成，推理部署更省算力，搞推理优化的可以看看。

01:07

01:07

marktechpost@Asif Razzaq

79°

DeepSeek开源了DSpark框架，通过将草稿模块附加到现有DeepSeek-V4权重上实现推测解码。它结合并行草稿骨干和轻量级马尔可夫头来减少后缀衰减，并加入基于置信度的调度验证，根据实时GPU负载调整检查token数量。离线测试中，接受长度相比DFlash和Eagle3提升16-31%；生产环境中每个用户生成速度比MTP-1基线提升57-85%，且无损。训练代码DeepSpec以MIT许可证开源。

AI模型 DSpark DeepSeek-V4 DeepSeek 推测解码推理加速

推荐理由：DeepSeek搞了个DSpark，让V4推理速度翻倍，开源还无损，适合高并发场景。

6月17日

01:55

01:55

AWS Machine Learning Blog@Andy Peng

精选

本文介绍如何利用Amazon SageMaker AI中的P-EAGLE方法并行化推测解码，加速生成式AI推理。用户可从SageMaker JumpStart目录中选择兼容模型，并配置并行草稿生成参数。通过部署优化的实时SageMaker AI端点，可显著降低推理延迟。P-EAGLE基于EAGLE框架，支持多头并行推测，适用于Llama等主流模型。

技巧 P-EAGLE Amazon SageMaker AI SageMaker JumpStart 推测解码推理加速

推荐理由：AWS教你用P-EAGLE在SageMaker上把推理加速好几倍，选模型调参数就能部署，简单实用。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月27日

15:30

15:30

marktechpost@Michal Sutter

72°

EAGLE 团队联合 vLLM 和 TorchSpec 发布了 EAGLE 3.1，旨在解决生产环境中推测解码的不稳定性。该算法通过修复注意力漂移问题，提升了 LLM 推理的效率和可靠性。EAGLE 3.1 针对大规模部署场景优化，减少了推理延迟和资源消耗。这一更新对于需要高性能 LLM 推理的团队具有重要意义。

AI模型 EAGLE 3.1 推测解码注意力漂移 LLM 推理 vLLM

推荐理由：EAGLE 3.1 解决了生产环境中推测解码的稳定性痛点，做 LLM 推理优化的团队可以直接用上，减少注意力漂移带来的性能损失。

5月13日

00:33

00:33Google Developers Blog（博客/媒体）

加州大学圣地亚哥分校研究者将DFlash（一种块扩散推测解码方法）成功部署到Google TPU上，通过单次前向传播“绘制”整个候选词块，绕过传统自回归逐步预测的顺序瓶颈。该系统在TPU上实现了平均3.13倍的加速，峰值性能接近现有EAGLE-3方法的两倍。该开源方案已集成至vLLM生态，利用TPU的免费并行验证和高品质草稿预测，显著提升复杂推理任务的效率。

AI模型推理加速推测解码 TPU 开源/仓库 vLLM

推荐理由：这一工作展示了扩散式推测解码在TPU上的实际落地价值，突破传统推测解码的顺序瓶颈，尤其利好大规模LLM推理场景。开源集成至vLLM有助于行业快速采用。