全部 AI 动态 · AI 热点

6月30日

06:35

vLLM@vllm_project

vLLM 社区正在将 DeepSeek 的 DSpark 推测解码算法集成到 vLLM 推理引擎中。DSpark 是一种推测解码算法，能显著提升大语言模型的推理速度。该集成旨在为所有 vLLM 用户带来更快的推理性能，无需额外配置。目前社区正在积极开发中，预计将提升 vLLM 的吞吐量并降低延迟。

AI模型 vLLM DeepSeek DSpark 推理加速开源模型

推荐理由：vLLM 社区正在把 DeepSeek 的 DSpark 算法加进来，推理速度能再上一个台阶，用 vLLM 的朋友可以期待了。

原文

6月28日

13:11

pandaily@contact@pandaily.com (Pandaily)

DeepSeek 发布 DSpark 推测解码框架，可将文本生成速度提升 80%。该框架优化推理效率，标志着 AI 竞争焦点从训练规模转向实际部署。DSpark 采用推测解码技术，通过小模型草稿加速大模型生成。

AI模型 DeepSeek DSpark 推理加速推测解码

推荐理由：DeepSeek 的 DSpark 框架让模型生成快八成，推理部署更省算力，搞推理优化的可以看看。

原文

11:19

Geek@geekbb

有传闻称DeepSeek官方V4 API在2024年8月上线两周后，便开始使用氮气加速技术DSpark。该说法源自社区讨论，目前官方未确认。DSpark是DeepSeek自主研发的推理加速方案，可降低延迟和成本。若属实，则V4 API在发布后快速引入了性能优化。

AI产品 DeepSeek V4 DSpark 推理加速

推荐理由：听说DeepSeek V4 API悄悄用上DSpark加速了？上线才两周，这速度有点猛。

原文

01:07

marktechpost@Asif Razzaq

79°

DeepSeek开源了DSpark框架，通过将草稿模块附加到现有DeepSeek-V4权重上实现推测解码。它结合并行草稿骨干和轻量级马尔可夫头来减少后缀衰减，并加入基于置信度的调度验证，根据实时GPU负载调整检查token数量。离线测试中，接受长度相比DFlash和Eagle3提升16-31%；生产环境中每个用户生成速度比MTP-1基线提升57-85%，且无损。训练代码DeepSpec以MIT许可证开源。

AI模型 DSpark DeepSeek-V4 DeepSeek 推测解码推理加速

推荐理由：DeepSeek搞了个DSpark，让V4推理速度翻倍，开源还无损，适合高并发场景。

原文

6月24日

15:30

marktechpost@Asif Razzaq

76°

UC San Diego推出DFlash，用轻量级块扩散模型替代自回归起草器，实现投机解码。该方法通过单次前向传播生成整块token，并利用KV注入条件于目标隐藏特征。在Qwen3-8B上达到6.08倍无损加速，NVIDIA报告在Blackwell上固定交互性下吞吐量提升15倍。DFlash已发布20个检查点，支持SGLang、vLLM和TensorRT-LLM。

AI模型 DFlash Qwen3-8B NVIDIA Blackwell 投机解码推理加速

推荐理由：UC San Diego搞了个新方法DFlash，用扩散模型直接生成整段token，比自回归快几倍，Qwen3-8B上6倍加速，Blackwell上15倍，还开源了检查点，搞推理加速的可以看看。

原文

6月17日

01:55

AWS Machine Learning Blog@Andy Peng

精选

本文介绍如何利用Amazon SageMaker AI中的P-EAGLE方法并行化推测解码，加速生成式AI推理。用户可从SageMaker JumpStart目录中选择兼容模型，并配置并行草稿生成参数。通过部署优化的实时SageMaker AI端点，可显著降低推理延迟。P-EAGLE基于EAGLE框架，支持多头并行推测，适用于Llama等主流模型。

技巧 P-EAGLE Amazon SageMaker AI SageMaker JumpStart 推测解码推理加速

推荐理由：AWS教你用P-EAGLE在SageMaker上把推理加速好几倍，选模型调参数就能部署，简单实用。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:56

arXiv: DeepSeek@Yingnan Zhao, Razvan Bunescu, Ahmed Louri, Avinash Karanth, Ke Wang

针对MoE模型（如Qwen、DeepSeek）推理中专家加载延迟高的问题，研究者分析了专家选择行为，发现相邻MoE层和连续解码token间专家请求存在强相关性。基于此提出ST-MoE，一个结合轻量级运行时预测机制与可重构硬件设计的专家预取框架。ST-MoE通过预取专家与计算重叠，显著提升推理性能并降低能耗，同时保持模型精度。实验在多种MoE模型和应用（语言理解、代码生成）上验证了有效性。

论文 MoE Qwen DeepSeek ST-MoE 推理加速

推荐理由：这篇论文分析了Qwen、DeepSeek等MoE模型的专家加载瓶颈，用ST-MoE框架通过预取专家来加速推理，兼顾效率和精度，适合关注大模型推理优化的读者。

原文

02:16

LMSYS Org (SGLang)@lmsysorg

76°

LMSYS 发布博客介绍 DFlash 和 Spec V2 推测解码技术。在 8 块 B200 上，针对 HumanEval 基准，DFlash + Spec V2 实现超过 4.3 倍基线吞吐量和 1.5 倍原生 MTP 吞吐量。其核心包括块扩散起草器（一次前向传播生成完整 token 块）和 KV 注入（目标模型特征馈入每层 KV 缓存），以及 Spec V2 重叠调度器带来 33% 端到端提升。该方案现已作为 SGLang 的默认推测解码引擎。

AI模型 DFlash Spec V2 SGLang 推测解码推理加速

推荐理由：LMSYS 和 Modal 联手推出了 DFlash，让 Qwen 3.5 的推理速度比原生 MTP 快 1.5 倍，比基线快 4.3 倍，代码已开源，玩起来！

原文

6月15日

11:11

arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi

精选

论文发现消费级Ampere GPU上扩散Transformer的INT8量化常因反量化回bf16而无法利用INT8张量核心。作者为Ideogram 4.0线性层设计了一个融合Triton INT8 GEMM内核，在Ampere张量核心上执行int8×int8→int32，并在epilogue中折叠逐token×逐通道反量化和偏置。该内核实现2.8-4.2倍于bf16的GEMM加速，并保持余弦相似度1.0且无NaN。端到端测试中，在单张RTX 3090上768px分辨率获得约9-10%提速，1024px生成耗时156.5秒，优于NF4（164.5秒）和FP8（172.9秒）基线，且PickScore/CLIPScore无质量损失。

论文 Ideogram 4.0 RTX 3090 INT8 GEMM 推理加速 Triton

推荐理由：INT8反超FP8，单卡RTX 3090跑1024px扩散模型

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:31

karminski-牙医 (AI工具)@karminski3

精选

Google发布了Gemma小模型的Diffusion版本，名为Diffusion Gemma，大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化，5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本，速度远快于传统逐字生成模型，但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平，在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。

AI模型 Diffusion模型 Gemma Google NVIDIA 推理加速

推荐理由：Diffusion Gemma把文本生成速度拉到单卡700TPS，做实时对话或高吞吐推理的团队可以直接用，4bit量化16G显存就能跑，值得试试能否做投机解码的草稿模型。

原文

12:10

vLLM@vllm_project

精选73°

GoogleDeepMind 推出了 DiffusionGemma，这是一个基于 Gemma4 架构的 26B 参数扩散语言模型（dLLM），并成为 vLLM 原生支持的首个扩散语言模型。与传统自回归模型逐个生成 token 不同，DiffusionGemma 能并行去噪 256 个 token 的块，在单张 H200（FP8）上以 batch size 1 实现超过 1200 输出 token/秒的吞吐量。该模型通过 vLLM 的 model runner v2 的 ModelState 和现有推测解码路径实现，对调度器和运行器改动极小。FP8 和 NVFP4 检查点已托管在 RedHat AI 中心，由 GoogleDeepMind、RedHat AI 和 NVIDIA AI 团队合作完成。这一进展标志着扩散模型在高效文本生成领域迈出重要一步。

AI模型扩散语言模型 vLLM GoogleDeepMind 并行生成推理加速

推荐理由：DiffusionGemma 用并行去噪替代逐 token 生成，大幅提升推理速度，做大规模文本生成或实时应用的团队可以直接在 vLLM 中体验，值得关注。

原文

09:57

arXiv cs.LG@Alexander Soen, Hisham Husain, Valentin De Bortoli, Arnaud Doucet

该论文提出了一种针对扩散模型的高效推测采样方案，将大语言模型中的块验证技术适配到连续扩散空间，显著提高了草稿的接受率。现有方法在连续空间中采样残差分布时计算效率低，而新方案通过块验证实现了更高效的并行验证。作者还形式化了 Free Drafter——一种无需训练的启发式自推测草稿生成器。实验表明，Free Drafter 在现有推测方法基础上实现了最高 6.3% 的加速，且几乎无额外开销。这项工作为扩散模型的推理加速提供了新思路，尤其适用于需要快速生成高质量样本的场景。

论文扩散模型推测解码推理加速块验证 Free Drafter

推荐理由：扩散模型推理加速有了新解法——块验证让草稿接受率更高，做生成式 AI 推理优化的团队可以直接参考 Free Drafter 的无训练方案，实测有 6.3% 的提速收益。

原文

09:13

arXiv cs.AI@Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Pengyu Zhao

精选

MiniMax 提出了一种名为 MiniMax Sparse Attention (MSA) 的块级稀疏注意力机制，旨在解决大语言模型在超长上下文（百万级 token）下的计算瓶颈。MSA 基于分组查询注意力（GQA），通过轻量级索引分支对键值块进行评分，并为每个 GQA 组独立选择 Top-k 子集，实现高效的组级稀疏检索。在 109B 参数的多模态模型上，MSA 在 1M 上下文长度下将每 token 注意力计算量减少 28.4 倍，并在 H800 GPU 上实现 14.2 倍预填充和 7.6 倍解码加速。该方法的推理内核已开源，同时发布了基于 MSA 的生产级多模态模型。

论文稀疏注意力长上下文推理加速 MiniMax 开源/仓库

推荐理由：做长上下文推理或 agent 工作流的开发者，终于有了一个能直接部署的稀疏注意力方案——MSA 在 109B 模型上实现 28 倍计算缩减，且内核已开源，值得立刻试跑。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

06:13

Sundar Pichai@sundarpichai

78°

Google 发布了 DiffusionGemma，这是一个基于 Gemma 4 的实验性开放模型，采用文本扩散技术。与传统逐词预测不同，DiffusionGemma 能同时生成整段文本，实现高达 4 倍的推理加速。该模型目前以研究预览形式开放，旨在探索更高效的文本生成方式。这对于需要低延迟文本生成的场景（如实时对话、内容创作）具有重要意义。

AI模型文本扩散推理加速 Gemma 4 开放模型 Google

推荐理由：推理速度提升 4 倍意味着更低的延迟和更低的成本，做实时文本生成或大规模内容生产的团队值得关注这个新方向。

原文

03:39

Decoder@Jonathan Kemper

72°

Google 发布了 DiffusionGemma，一个 260 亿参数的开源模型。它不采用传统的逐词生成方式，而是通过扩散过程从噪声中生成文本，类似于图像 AI 的工作方式。据 Nvidia 称，该模型在单个 H100 GPU 上每秒可处理约 1000 个 token，速度是同类自回归模型的约 4 倍。但输出质量较低，因此 Google 目前将其定位为面向开发者的实验性工具。

AI模型 Google DiffusionGemma 扩散模型开源模型推理加速

推荐理由：DiffusionGemma 为文本生成开辟了新路径，追求推理速度的开发者可以尝试这种非自回归方案，尤其适合对实时性要求高的场景。

原文

02:55

02:55Google DeepMind: Blog（博客/媒体）

Google DeepMind 推出 DiffusionGemma，一种基于扩散模型的文本生成方法，相比传统自回归模型，生成速度提升 4 倍。该模型在保持生成质量的同时，显著降低了推理延迟，适用于需要快速响应的应用场景。DiffusionGemma 通过并行生成 token 而非逐个生成，实现了速度飞跃。这一进展对实时对话系统、内容生成等场景具有重要意义。

AI模型文本生成扩散模型推理加速 DeepMind DiffusionGemma

推荐理由：做文本生成应用的开发者，如果你的产品对延迟敏感，DiffusionGemma 的 4 倍加速值得一试，能直接提升用户体验。

原文

6月10日

12:07

arXiv cs.LG@Xuezhen Xie, Zhiqiang Zhou

精选

CLP提出了一种新的多Token预测（MTP）加速方法，解决了现有MTP方法中“头-主干竞争”导致的质量下降问题。该方法通过“主干即架构”原则，让主干语言模型头始终生成第一个Token，MTP头只负责后续Token。CLP使用轻量级线性层（4.6K-7.7K参数）预测可安全接受的Token数量，在Qwen2.5模型上实现1.14x-1.29x加速，且质量零损失（重复率<0.02），优于传统门控网络方法。实验表明，较短的预测窗口（k=2）在大模型上可恢复24%的MTP头准确率，为未来加速研究提供了清晰路线图。

论文推理加速多Token预测 Qwen2.5 零损失轻量架构

推荐理由：CLP解决了多Token预测加速中质量下降的核心痛点，做LLM推理优化的团队可以直接参考其轻量设计，在保持输出质量的同时获得稳定加速。

原文

6月9日

13:29

xiaomimimo@xiaomimimo

88°

小米与TileRT AI合作发布MiMo-V2.5-Pro-UltraSpeed，首次在1万亿参数模型上实现超过1000 tokens/s的输出速度。该突破仅使用单个标准8-GPGPU节点，无需Cerebras的晶圆级集成或Groq的纯片上SRAM芯片。技术细节已公开，并提供限时免费试用和API服务。这标志着大模型推理效率的重大飞跃，有望推动实时AI应用的普及。

AI产品小米 MiMo 推理加速大模型 GPU

推荐理由：大模型推理速度的里程碑——1T模型跑出1000+ tokens/s，做实时AI应用和推理优化的团队值得关注，可以直接申请试用体验。

原文

00:49

marktechpost@Asif Razzaq

精选

小米MiMo团队与TileRT发布MiMo-V2.5-Pro-UltraSpeed推理模式。该模式在单个8-GPU普通节点上，使1万亿参数模型MiMo-V2.5-Pro的译码速度超过1000 tokens/秒。这是首次在commodity GPU上实现如此高吞吐量。相比此前方案，速度提升显著。

AI模型 MiMo TileRT MiMo-V2.5-Pro-UltraSpeed Xiaomi 推理加速

推荐理由：1万亿参数跑出1000t/s

原文

6月5日

12:06

arXiv cs.AI@Yutao Sun, Yanqi Zhang, Li Dong, Jianyong Wang, Furu Wei

精选

本文提出跨层稀疏注意力（CLSA），一种基于KV共享架构（如YOCO）的新方法。核心创新在于不仅共享KV缓存，还共享路由索引——单个索引器计算一次token级top-k选择，结果跨层复用，既保留了细粒度选择性，又分摊了路由开销。实验显示，在128K上下文下，CLSA实现最高7.6倍解码加速和17.1倍整体吞吐提升，同时保持模型质量。这为长上下文LLM提供了一种兼顾效率与质量的架构方案。

论文稀疏注意力长上下文推理加速 KV缓存 YOCO

推荐理由：长上下文推理的瓶颈终于有了系统级解法——CLSA通过共享路由索引同时加速预填充、缓存和解码，做LLM推理优化的团队值得看看这个架构思路。

原文

6月4日

01:21

Fireworks AI@FireworksAI_HQ

78°

MiniMax 发布了新模型 M3，其核心创新是 MiniMax Sparse Attention (MSA) 机制，在 1M token 长上下文场景下解码速度提升 15.6 倍。Fireworks AI 宣布与 MiniMax 合作，为本次发布提供推理支持。用户可前往 minimax.io 试用，模型权重发布后也将对 Fireworks 社区开放。这一突破显著降低了长上下文推理的延迟和成本，对需要处理超长文档、代码库或对话历史的开发者意义重大。

AI模型 MiniMax M3 稀疏注意力长上下文推理加速

推荐理由：长上下文推理的瓶颈被 MSA 大幅缓解，做 RAG、长文档分析或大上下文应用的团队值得立即体验，速度提升意味着更低的成本和更好的用户体验。

原文

6月2日

12:00

arXiv cs.AI@Junxia Cui, Haotian Ye, Runchu Tian, Hongcan Guo, Jinya Jiang, Haoru Li, Chaojie Ren, Yiming Huang, Kaijie Zhu, Zhongkai Yu, Kun Zhou, Jingbo Shang

精选

扩散大语言模型（dLLMs）作为自回归（AR）模型的替代方案，通过并行或块解码实现更快推理，但其掩码语言建模公式与标准token级推测解码不兼容。AR模型利用因果掩码实现单次前向验证多个草稿token，而dLLMs依赖掩码token和双向注意力，导致有效上下文随去噪步骤变化，无法直接进行token级推测验证。为此，研究者提出SimSD，一种简单有效的推测解码算法，采用即插即用的掩码策略，为dLLMs提供时间上有效的token级上下文。该方法显式引入草稿模型的参考token，并设计注意力掩码调节其与当前步骤token的交互，使dLLMs能在单次前向前向计算草稿token的有效logits，恢复AR模型的验证能力同时保持dLLMs的并行解码优势。SimSD无需训练，可灵活集成KV缓存和块解码等加速技术，在四个基准测试中实现高达7.46倍的解码吞吐量提升，同时保持甚至改善平均生成质量。

论文推测解码扩散语言模型推理加速掩码策略训练无关

推荐理由：扩散语言模型终于有了实用的推测解码方案，做模型推理加速的团队可以直接集成SimSD，无需额外训练就能获得数倍吞吐提升，值得关注。

原文

09:39

arXiv cs.AI@Xin Su, Dawid Majchrowski, Fangyuan Yu, Vanshil Atul Shah, Sebastian Rogawski, Pawel Morkisz, Anahita Bhiwandiwalla, Phillip Howard

大语言模型的自回归生成成本高昂，推测解码通过草拟多个token并一次性验证来加速，但加速效果取决于草稿被接受的长度。无参数草稿源在结构化任务和智能体工作流中能以低成本生成长序列，但缓存匹配的收益在不同步骤间波动。本文提出Hybrid Verified Decoding，在验证前预测缓存草稿的接受长度，并据此选择缓存验证或基于模型的草稿器。在三个LLM和十六个数据集上，该方法在智能体工作流中表现尤为突出，平均加速2.73倍，全面超越EAGLE3。分析揭示了提示结构如何创造缓存机会、高收益缓存草稿如何集中在少数区域，以及收益引导的选择如何减少顺序解码工作量。

论文推测解码推理加速智能体工作流缓存机制 EAGLE3

推荐理由：做LLM推理加速的团队终于有了一个能动态分配验证资源的方案——在智能体工作流中平均加速2.73倍，比EAGLE3还强，搞推测解码的开发者值得点开看看具体实现。

原文

5月28日

17:17

marktechpost@Asif Razzaq

精选72°

Perplexity AI 开源了其重写的 Unigram 分词器，该分词器在 p50 延迟上比 Hugging Face tokenizers crate 低 5 倍，同时将生产环境的 CPU 利用率降低了 5-6 倍。这一改进主要针对重排序器（reranker）的延迟瓶颈，通过优化分词效率来提升整体推理性能。开源版本已在 GitHub 上发布，可供开发者直接使用。对于依赖大规模文本处理的 AI 团队来说，这能显著降低计算成本并加快响应速度。

AI模型分词器开源/仓库 Perplexity AI 延迟优化推理加速

推荐理由：做搜索或 RAG 系统的团队终于有了更快的分词方案——Perplexity 开源的这个 Unigram 分词器直接降低 5 倍延迟和 6 倍 CPU 消耗，建议有高吞吐需求的开发者立刻试一下。

原文

15:39

pandaily@contact@pandaily.com (Pandaily)

精选

中国 AI 独角兽 MiniMax 正在准备推出其下一代 M3 大语言模型，该模型采用自研稀疏注意力机制，声称预填充速度提升 9.7 倍。M3 模型旨在解决长上下文场景下的计算效率瓶颈，通过稀疏化注意力计算减少冗余，从而加速推理并降低资源消耗。这一进展对需要处理超长文本的 AI 应用（如文档分析、对话系统）具有重要意义。MiniMax 预计在 2026 年 5 月正式发布 M3 模型。

AI模型 MiniMax M3 稀疏注意力大语言模型推理加速

推荐理由：稀疏注意力是当前大模型效率优化的关键方向，MiniMax 的 9.7 倍提速对做长文本推理的开发者是直接利好，值得关注其技术细节和开源计划。

原文

5月25日

04:37

rohanpaul_ai@rohanpaul_ai

精选72°

阿里巴巴与南京大学联合发表论文，提出RTPurbo方法，通过轻量级适配将百万token预填充速度提升9.36倍（对比FlashAttention-2）。该方法发现训练好的全注意力模型已存在隐藏稀疏结构，无需重新训练。RTPurbo识别出少数需要远距离token的注意力头，其余头聚焦邻近文本，并使用16维索引器快速定位关键token。在长上下文基准和推理任务中，RTPurbo保持接近全注意力的精度，同时实现高达9.36倍加速。这证明长上下文推理中的浪费比表面看起来更有结构性。

论文长上下文注意力稀疏化推理加速 RTPurbo Alibaba

推荐理由：长上下文推理的算力瓶颈是AI应用落地的关键障碍，做LLM推理优化或长文档处理的团队可以直接参考RTPurbo的稀疏化思路，无需从头训练模型。

原文

02:52

rohanpaul_ai@rohanpaul_ai

精选72°

研究发现，大型混合专家（MoE）模型在处理许多简单token时，浪费了约一半的专家计算资源。新提出的ZEDA（零专家自蒸馏适应）框架，通过为路由器添加“零专家”选项，让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练，而是将原MoE模型作为冻结教师，通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试，去除了约50%的专家计算，精度损失极小，实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度，而是与不确定性相关，为部署MoE模型提供了更经济的方案。

论文 MoE 模型优化推理加速自蒸馏 Qwen3 GLM

推荐理由：部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token，推理速度提升20%且几乎不掉精度，做模型推理优化的开发者可以直接参考论文方法。

原文

5月23日

16:19

@atomic_chat_hq@atomic_chat_hq

精选72°

Atomic Chat 团队通过 Multi-Token Prediction (MTP) 技术，在 2 块 RTX 5090 上对 Qwen 模型实现了最高 2.5 倍的推理加速。其中，Qwen3.6 27B 密集模型从 51 tps 提升至 117 tps（+137%），而 MoE 模型 35B-A3B 从 218 tps 提升至 267 tps（+25%）。MTP 通过一次前向传播验证多个预测 token，显著减少了内存带宽瓶颈，密集模型受益更大。该技术保持零精度损失，仅需额外约 1 GB 显存，且代码已开源。

AI模型推理加速 MTP/多token预测 Qwen MoE/密集模型开源/仓库

推荐理由：MTP 技术让本地大模型推理速度翻倍，尤其适合在消费级显卡上跑密集模型的开发者——2 块 RTX 5090 就能让 27B 模型达到 117 tps，值得直接试开源代码。

原文

09:53

09:53Hugging Face: Blog（博客/媒体）

精选

NVIDIA 发布了 Nemotron-Labs 扩散语言模型，该模型采用扩散机制替代传统的自回归生成方式，大幅提升文本生成速度，接近光速。与 GPT-4 等模型相比，Nemotron-Labs 在保持生成质量的同时，推理速度提升了一个数量级。该模型在多个基准测试中表现出色，尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式，让文本生成更接近实时交互。

AI模型扩散模型文本生成 NVIDIA 推理加速 Nemotron-Labs

推荐理由：NVIDIA 的扩散语言模型将文本生成速度推向新高度，做实时对话或低延迟应用的开发者可以直接关注，它可能改变你对大模型推理速度的认知。

原文

5月21日

12:39

rohanpaul_ai@rohanpaul_ai

精选76°

atomic.chat 展示了 Multi-Token Prediction（MTP）技术，让本地运行的 Qwen 27B 密集模型从 51 tokens/s 提升到 117 tokens/s，MoE 35B-A3B 模型在 2x RTX 5090 上从 218 提升到 267 tokens/s。MTP 通过一次生成并验证多个未来 token，减少 GPU 重复读取模型权重的次数，从而突破内存带宽瓶颈。测试中约 80% 的 draft token 被接受，且零精度损失，仅额外占用约 1GB VRAM。该项目完全开源，对本地大模型部署者是个重大利好。

AI模型本地大模型 MTP/多 token 预测推理加速 Qwen 开源/仓库

推荐理由：本地大模型用户终于可以突破内存带宽瓶颈了——MTP 让 Qwen 27B 速度翻倍还零精度损失，跑本地模型的开发者建议直接去 GitHub 试。

原文

08:00

Fireworks AI@FireworksAI_HQ

Fireworks AI 与 ExaAILabs 联合举办了第 7 届 Nerd Meet Up，邀请了 MonacoGTM、ComposioDevs 等团队分享。讨论主题包括：大规模构建内部上下文层、为知识工作智能体闭环、以及通过在线投机训练加速推理和强化学习部署。活动在 Exa 的办公室举行，现场氛围热烈。

行业智能体推理加速上下文层 Fireworks AI ExaAILabs

推荐理由：对于正在搭建内部知识系统或优化推理管线的 AI 工程师，这场 Meet Up 的议题直接命中痛点——大规模上下文层和智能体闭环是当前企业落地的关键，值得关注后续分享。

原文

5月20日

11:31

arXiv cs.LG@Yuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang

精选

投机解码通过草稿-验证范式加速大模型推理，但现有方法构建的庞大草稿树带来严重的显存带宽和计算开销。动态深度剪枝虽能减少延迟，却会丢弃潜在有效候选，导致接受率无法达到稠密树的上限。本文提出Graft框架，将剪枝与检索作为相互增强的操作：剪枝释放计算预算，检索补偿剪枝导致的覆盖损失并恢复接受长度。Graft采用“先剪后接”机制，以近乎零开销将高预测性的检索令牌填入剪枝空位，无需训练且无损。在短上下文、长上下文及大规模模型（如Qwen3-235B）上，Graft实现了最高5.41倍加速，平均加速比EAGLE-3提升21.8%，并初步探索了在非自回归草稿范式中的应用。

论文投机解码推理加速剪枝检索补偿大模型部署

推荐理由：做推理加速的团队终于有了一个不牺牲接受率的剪枝方案——Graft用检索补偿剪枝损失，直接提升EAGLE-3 21.8%的加速比，搞LLM部署的值得试试。

原文

08:44

NVIDIA AI@NVIDIAAI

76°

NVIDIA 发布了 Nemotron-Labs-Diffusion 系列扩散语言模型，与传统逐 token 生成不同，该模型能在单次推理中并行生成多个 token，并支持在生成过程中进行修订。这种设计充分利用了现代 GPU 的并行计算能力，显著提升推理速度。模型系列包含 3B 到 14B 参数规模，并提供了视觉-语言变体。目前该模型已开源可用。

AI模型扩散模型并行生成 NVIDIA Nemotron 推理加速

推荐理由：NVIDIA 的扩散语言模型打破了传统逐 token 生成瓶颈，做推理加速或大模型部署的团队可以直接拿来提升 GPU 利用率，值得关注。

原文

5月19日

11:01

arXiv cs.LG@Grigory Bartosh, David Ruhe, Emiel Hoogeboom, Jonathan Heek, Thomas Mensink, Tim Salimans

精选

Dual-Rate Diffusion 提出了一种新的扩散模型加速方法，通过交错执行一个稀疏更新的重上下文编码器和一个轻量去噪模型来降低推理成本。重编码器每几步提取一次高维特征，轻量模型则在每一步复用这些特征进行高效去噪。在 ImageNet 基准上，该方法在保持生成质量的同时将计算成本降低 2-4 倍。此外，该方法与蒸馏技术（如 Moment Matching Distillation）兼容，可进一步加速少步生成。

论文扩散模型推理加速 ImageNet 蒸馏生成模型

推荐理由：扩散模型推理慢是落地痛点，Dual-Rate Diffusion 用轻量网络复用特征，做图像生成的团队可以直接拿来加速现有模型，效果不打折。

原文

5月18日

11:50

arXiv cs.AI@Jin Shi, Brady Zhang, Yishun Lu

精选

VLA-AD提出一种蒸馏框架，利用视觉语言模型作为离线语义监督器，将大型VLA教师模型（如OpenVLA-7B）压缩为轻量级学生策略（158M参数），模型大小减少44倍，推理速度提升3.28倍（12.5 Hz on RTX 4090），性能仅下降0.27%。该方法不仅模仿底层动作，还引入任务阶段锚点和多帧操作方向描述等高层语义信号，仅在训练时使用，测试时学生策略独立运行。在LIBERO基准测试中，VLA-AD对π0.5-4B教师也有效，学生策略在部分任务上甚至超越教师。额外分析表明，语义引导使学生对教师动作噪声（如高频夹爪误操作）更鲁棒。

论文 VLA策略模型蒸馏机器人操控视觉语言模型推理加速

推荐理由：做机器人策略部署的团队终于有了实用的模型压缩方案——VLA-AD用VLM离线语义信号替代在线大模型，7B教师变158M学生，速度3倍提升且性能几乎无损，做实时闭环控制的开发者可以直接参考。

原文

5月14日

14:13

Cohere@cohere

精选

Cohere 发布技术报告，指出基于混合专家模型（MoE）的大型语言模型在推测解码（speculative decoding）中表现更优，打破了传统认知。推测解码是一种加速推理的技术，通常认为对密集模型更有效，但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本，推动 MoE 模型在实时应用中的部署。

论文 MoE 推测解码推理加速 Cohere 技术报告

推荐理由：做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构，建议点开报告看具体数据。

原文

5月13日

19:12

arXiv cs.LG@Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu, Reyna Abhyankar, Qingyang Wu, Austin Silveria, Pragaash Ponnusamy, Jue Wang, Ben Athiwaratkun, Leon Song, Tri Dao, Daniel Y. Fu, Chris De Sa

精选

量化是加速生成模型推理的标准技术，但传统块浮点（BFP）格式使用基于块最大幅度的固定缩放因子，可能导致量化误差次优。本文提出ScaleSearch方法，通过细粒度搜索利用微缩放格式的尾数位，最小化量化误差。ScaleSearch可集成于后训练量化（PTQ）和低精度注意力机制，实验显示NVFP4量化误差降低27%，Qwen3-8B在MATH500上PTQ提升15点。此外，ScaleSearchAttention算法在Llama 3.1 70B上实现Wikitext-2困惑度降低0.77点，几乎无性能损失。

论文量化块浮点 NVFP4 后训练量化推理加速

推荐理由：做模型量化和推理加速的团队终于有了更优的缩放策略——ScaleSearch直接提升精度且兼容现有方法，建议做低精度部署的开发者试试。

原文

00:33

00:33Google Developers Blog（博客/媒体）