全部 AI 动态 · AI 热点

6月28日

13:11

13:11

pandaily@contact@pandaily.com (Pandaily)

DeepSeek 发布 DSpark 推测解码框架，可将文本生成速度提升 80%。该框架优化推理效率，标志着 AI 竞争焦点从训练规模转向实际部署。DSpark 采用推测解码技术，通过小模型草稿加速大模型生成。

AI模型 DeepSeek DSpark 推理加速推测解码

推荐理由：DeepSeek 的 DSpark 框架让模型生成快八成，推理部署更省算力，搞推理优化的可以看看。

01:07

01:07

marktechpost@Asif Razzaq

79°

DeepSeek开源了DSpark框架，通过将草稿模块附加到现有DeepSeek-V4权重上实现推测解码。它结合并行草稿骨干和轻量级马尔可夫头来减少后缀衰减，并加入基于置信度的调度验证，根据实时GPU负载调整检查token数量。离线测试中，接受长度相比DFlash和Eagle3提升16-31%；生产环境中每个用户生成速度比MTP-1基线提升57-85%，且无损。训练代码DeepSpec以MIT许可证开源。

AI模型 DSpark DeepSeek-V4 DeepSeek 推测解码推理加速

推荐理由：DeepSeek搞了个DSpark，让V4推理速度翻倍，开源还无损，适合高并发场景。

6月24日

15:30

15:30

marktechpost@Asif Razzaq

76°

UC San Diego推出DFlash，用轻量级块扩散模型替代自回归起草器，实现投机解码。该方法通过单次前向传播生成整块token，并利用KV注入条件于目标隐藏特征。在Qwen3-8B上达到6.08倍无损加速，NVIDIA报告在Blackwell上固定交互性下吞吐量提升15倍。DFlash已发布20个检查点，支持SGLang、vLLM和TensorRT-LLM。

AI模型 DFlash Qwen3-8B NVIDIA Blackwell 投机解码推理加速

推荐理由：UC San Diego搞了个新方法DFlash，用扩散模型直接生成整段token，比自回归快几倍，Qwen3-8B上6倍加速，Blackwell上15倍，还开源了检查点，搞推理加速的可以看看。

6月17日

01:55

01:55

AWS Machine Learning Blog@Andy Peng

精选

本文介绍如何利用Amazon SageMaker AI中的P-EAGLE方法并行化推测解码，加速生成式AI推理。用户可从SageMaker JumpStart目录中选择兼容模型，并配置并行草稿生成参数。通过部署优化的实时SageMaker AI端点，可显著降低推理延迟。P-EAGLE基于EAGLE框架，支持多头并行推测，适用于Llama等主流模型。

技巧 P-EAGLE Amazon SageMaker AI SageMaker JumpStart 推测解码推理加速

推荐理由：AWS教你用P-EAGLE在SageMaker上把推理加速好几倍，选模型调参数就能部署，简单实用。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

03:39

03:39

Decoder@Jonathan Kemper

72°

Google 发布了 DiffusionGemma，一个 260 亿参数的开源模型。它不采用传统的逐词生成方式，而是通过扩散过程从噪声中生成文本，类似于图像 AI 的工作方式。据 Nvidia 称，该模型在单个 H100 GPU 上每秒可处理约 1000 个 token，速度是同类自回归模型的约 4 倍。但输出质量较低，因此 Google 目前将其定位为面向开发者的实验性工具。

AI模型 Google DiffusionGemma 扩散模型开源模型推理加速

推荐理由：DiffusionGemma 为文本生成开辟了新路径，追求推理速度的开发者可以尝试这种非自回归方案，尤其适合对实时性要求高的场景。

02:55

02:55Google DeepMind: Blog（博客/媒体）

Google DeepMind 推出 DiffusionGemma，一种基于扩散模型的文本生成方法，相比传统自回归模型，生成速度提升 4 倍。该模型在保持生成质量的同时，显著降低了推理延迟，适用于需要快速响应的应用场景。DiffusionGemma 通过并行生成 token 而非逐个生成，实现了速度飞跃。这一进展对实时对话系统、内容生成等场景具有重要意义。

AI模型文本生成扩散模型推理加速 DeepMind DiffusionGemma

推荐理由：做文本生成应用的开发者，如果你的产品对延迟敏感，DiffusionGemma 的 4 倍加速值得一试，能直接提升用户体验。

6月9日

00:49

00:49

marktechpost@Asif Razzaq

精选

小米MiMo团队与TileRT发布MiMo-V2.5-Pro-UltraSpeed推理模式。该模式在单个8-GPU普通节点上，使1万亿参数模型MiMo-V2.5-Pro的译码速度超过1000 tokens/秒。这是首次在commodity GPU上实现如此高吞吐量。相比此前方案，速度提升显著。

AI模型 MiMo TileRT MiMo-V2.5-Pro-UltraSpeed Xiaomi 推理加速

推荐理由：1万亿参数跑出1000t/s

5月28日

17:17

17:17

marktechpost@Asif Razzaq

精选72°

Perplexity AI 开源了其重写的 Unigram 分词器，该分词器在 p50 延迟上比 Hugging Face tokenizers crate 低 5 倍，同时将生产环境的 CPU 利用率降低了 5-6 倍。这一改进主要针对重排序器（reranker）的延迟瓶颈，通过优化分词效率来提升整体推理性能。开源版本已在 GitHub 上发布，可供开发者直接使用。对于依赖大规模文本处理的 AI 团队来说，这能显著降低计算成本并加快响应速度。

AI模型分词器开源/仓库 Perplexity AI 延迟优化推理加速

推荐理由：做搜索或 RAG 系统的团队终于有了更快的分词方案——Perplexity 开源的这个 Unigram 分词器直接降低 5 倍延迟和 6 倍 CPU 消耗，建议有高吞吐需求的开发者立刻试一下。

15:39

15:39

pandaily@contact@pandaily.com (Pandaily)

精选

中国 AI 独角兽 MiniMax 正在准备推出其下一代 M3 大语言模型，该模型采用自研稀疏注意力机制，声称预填充速度提升 9.7 倍。M3 模型旨在解决长上下文场景下的计算效率瓶颈，通过稀疏化注意力计算减少冗余，从而加速推理并降低资源消耗。这一进展对需要处理超长文本的 AI 应用（如文档分析、对话系统）具有重要意义。MiniMax 预计在 2026 年 5 月正式发布 M3 模型。

AI模型 MiniMax M3 稀疏注意力大语言模型推理加速

推荐理由：稀疏注意力是当前大模型效率优化的关键方向，MiniMax 的 9.7 倍提速对做长文本推理的开发者是直接利好，值得关注其技术细节和开源计划。

5月23日

09:53

09:53Hugging Face: Blog（博客/媒体）

精选

NVIDIA 发布了 Nemotron-Labs 扩散语言模型，该模型采用扩散机制替代传统的自回归生成方式，大幅提升文本生成速度，接近光速。与 GPT-4 等模型相比，Nemotron-Labs 在保持生成质量的同时，推理速度提升了一个数量级。该模型在多个基准测试中表现出色，尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式，让文本生成更接近实时交互。

AI模型扩散模型文本生成 NVIDIA 推理加速 Nemotron-Labs

推荐理由：NVIDIA 的扩散语言模型将文本生成速度推向新高度，做实时对话或低延迟应用的开发者可以直接关注，它可能改变你对大模型推理速度的认知。

5月13日

00:33

00:33Google Developers Blog（博客/媒体）

加州大学圣地亚哥分校研究者将DFlash（一种块扩散推测解码方法）成功部署到Google TPU上，通过单次前向传播“绘制”整个候选词块，绕过传统自回归逐步预测的顺序瓶颈。该系统在TPU上实现了平均3.13倍的加速，峰值性能接近现有EAGLE-3方法的两倍。该开源方案已集成至vLLM生态，利用TPU的免费并行验证和高品质草稿预测，显著提升复杂推理任务的效率。

AI模型推理加速推测解码 TPU 开源/仓库 vLLM

推荐理由：这一工作展示了扩散式推测解码在TPU上的实际落地价值，突破传统推测解码的顺序瓶颈，尤其利好大规模LLM推理场景。开源集成至vLLM有助于行业快速采用。