全部 AI 动态 · AI 热点

6月30日

06:35

vLLM@vllm_project

vLLM 社区正在将 DeepSeek 的 DSpark 推测解码算法集成到 vLLM 推理引擎中。DSpark 是一种推测解码算法，能显著提升大语言模型的推理速度。该集成旨在为所有 vLLM 用户带来更快的推理性能，无需额外配置。目前社区正在积极开发中，预计将提升 vLLM 的吞吐量并降低延迟。

AI模型 vLLM DeepSeek DSpark 推理加速开源模型

推荐理由：vLLM 社区正在把 DeepSeek 的 DSpark 算法加进来，推理速度能再上一个台阶，用 vLLM 的朋友可以期待了。

原文

6月28日

11:19

Geek@geekbb

有传闻称DeepSeek官方V4 API在2024年8月上线两周后，便开始使用氮气加速技术DSpark。该说法源自社区讨论，目前官方未确认。DSpark是DeepSeek自主研发的推理加速方案，可降低延迟和成本。若属实，则V4 API在发布后快速引入了性能优化。

AI产品 DeepSeek V4 DSpark 推理加速

推荐理由：听说DeepSeek V4 API悄悄用上DSpark加速了？上线才两周，这速度有点猛。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

02:16

LMSYS Org (SGLang)@lmsysorg

76°

LMSYS 发布博客介绍 DFlash 和 Spec V2 推测解码技术。在 8 块 B200 上，针对 HumanEval 基准，DFlash + Spec V2 实现超过 4.3 倍基线吞吐量和 1.5 倍原生 MTP 吞吐量。其核心包括块扩散起草器（一次前向传播生成完整 token 块）和 KV 注入（目标模型特征馈入每层 KV 缓存），以及 Spec V2 重叠调度器带来 33% 端到端提升。该方案现已作为 SGLang 的默认推测解码引擎。

AI模型 DFlash Spec V2 SGLang 推测解码推理加速

推荐理由：LMSYS 和 Modal 联手推出了 DFlash，让 Qwen 3.5 的推理速度比原生 MTP 快 1.5 倍，比基线快 4.3 倍，代码已开源，玩起来！

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:31

karminski-牙医 (AI工具)@karminski3

精选

Google发布了Gemma小模型的Diffusion版本，名为Diffusion Gemma，大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化，5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本，速度远快于传统逐字生成模型，但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平，在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。

AI模型 Diffusion模型 Gemma Google NVIDIA 推理加速

推荐理由：Diffusion Gemma把文本生成速度拉到单卡700TPS，做实时对话或高吞吐推理的团队可以直接用，4bit量化16G显存就能跑，值得试试能否做投机解码的草稿模型。

原文

12:10

vLLM@vllm_project

精选73°

GoogleDeepMind 推出了 DiffusionGemma，这是一个基于 Gemma4 架构的 26B 参数扩散语言模型（dLLM），并成为 vLLM 原生支持的首个扩散语言模型。与传统自回归模型逐个生成 token 不同，DiffusionGemma 能并行去噪 256 个 token 的块，在单张 H200（FP8）上以 batch size 1 实现超过 1200 输出 token/秒的吞吐量。该模型通过 vLLM 的 model runner v2 的 ModelState 和现有推测解码路径实现，对调度器和运行器改动极小。FP8 和 NVFP4 检查点已托管在 RedHat AI 中心，由 GoogleDeepMind、RedHat AI 和 NVIDIA AI 团队合作完成。这一进展标志着扩散模型在高效文本生成领域迈出重要一步。

AI模型扩散语言模型 vLLM GoogleDeepMind 并行生成推理加速

推荐理由：DiffusionGemma 用并行去噪替代逐 token 生成，大幅提升推理速度，做大规模文本生成或实时应用的团队可以直接在 vLLM 中体验，值得关注。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

06:13

Sundar Pichai@sundarpichai

78°

Google 发布了 DiffusionGemma，这是一个基于 Gemma 4 的实验性开放模型，采用文本扩散技术。与传统逐词预测不同，DiffusionGemma 能同时生成整段文本，实现高达 4 倍的推理加速。该模型目前以研究预览形式开放，旨在探索更高效的文本生成方式。这对于需要低延迟文本生成的场景（如实时对话、内容创作）具有重要意义。

AI模型文本扩散推理加速 Gemma 4 开放模型 Google

推荐理由：推理速度提升 4 倍意味着更低的延迟和更低的成本，做实时文本生成或大规模内容生产的团队值得关注这个新方向。

原文

6月9日

13:29

xiaomimimo@xiaomimimo

88°

小米与TileRT AI合作发布MiMo-V2.5-Pro-UltraSpeed，首次在1万亿参数模型上实现超过1000 tokens/s的输出速度。该突破仅使用单个标准8-GPGPU节点，无需Cerebras的晶圆级集成或Groq的纯片上SRAM芯片。技术细节已公开，并提供限时免费试用和API服务。这标志着大模型推理效率的重大飞跃，有望推动实时AI应用的普及。

AI产品小米 MiMo 推理加速大模型 GPU

推荐理由：大模型推理速度的里程碑——1T模型跑出1000+ tokens/s，做实时AI应用和推理优化的团队值得关注，可以直接申请试用体验。

原文

6月4日

01:21

Fireworks AI@FireworksAI_HQ

78°

MiniMax 发布了新模型 M3，其核心创新是 MiniMax Sparse Attention (MSA) 机制，在 1M token 长上下文场景下解码速度提升 15.6 倍。Fireworks AI 宣布与 MiniMax 合作，为本次发布提供推理支持。用户可前往 minimax.io 试用，模型权重发布后也将对 Fireworks 社区开放。这一突破显著降低了长上下文推理的延迟和成本，对需要处理超长文档、代码库或对话历史的开发者意义重大。

AI模型 MiniMax M3 稀疏注意力长上下文推理加速

推荐理由：长上下文推理的瓶颈被 MSA 大幅缓解，做 RAG、长文档分析或大上下文应用的团队值得立即体验，速度提升意味着更低的成本和更好的用户体验。

原文

5月25日

04:37

rohanpaul_ai@rohanpaul_ai

精选72°

阿里巴巴与南京大学联合发表论文，提出RTPurbo方法，通过轻量级适配将百万token预填充速度提升9.36倍（对比FlashAttention-2）。该方法发现训练好的全注意力模型已存在隐藏稀疏结构，无需重新训练。RTPurbo识别出少数需要远距离token的注意力头，其余头聚焦邻近文本，并使用16维索引器快速定位关键token。在长上下文基准和推理任务中，RTPurbo保持接近全注意力的精度，同时实现高达9.36倍加速。这证明长上下文推理中的浪费比表面看起来更有结构性。

论文长上下文注意力稀疏化推理加速 RTPurbo Alibaba

推荐理由：长上下文推理的算力瓶颈是AI应用落地的关键障碍，做LLM推理优化或长文档处理的团队可以直接参考RTPurbo的稀疏化思路，无需从头训练模型。

原文

02:52

rohanpaul_ai@rohanpaul_ai

精选72°

研究发现，大型混合专家（MoE）模型在处理许多简单token时，浪费了约一半的专家计算资源。新提出的ZEDA（零专家自蒸馏适应）框架，通过为路由器添加“零专家”选项，让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练，而是将原MoE模型作为冻结教师，通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试，去除了约50%的专家计算，精度损失极小，实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度，而是与不确定性相关，为部署MoE模型提供了更经济的方案。

论文 MoE 模型优化推理加速自蒸馏 Qwen3 GLM

推荐理由：部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token，推理速度提升20%且几乎不掉精度，做模型推理优化的开发者可以直接参考论文方法。

原文

5月23日

16:19

@atomic_chat_hq@atomic_chat_hq

精选72°

Atomic Chat 团队通过 Multi-Token Prediction (MTP) 技术，在 2 块 RTX 5090 上对 Qwen 模型实现了最高 2.5 倍的推理加速。其中，Qwen3.6 27B 密集模型从 51 tps 提升至 117 tps（+137%），而 MoE 模型 35B-A3B 从 218 tps 提升至 267 tps（+25%）。MTP 通过一次前向传播验证多个预测 token，显著减少了内存带宽瓶颈，密集模型受益更大。该技术保持零精度损失，仅需额外约 1 GB 显存，且代码已开源。

AI模型推理加速 MTP/多token预测 Qwen MoE/密集模型开源/仓库

推荐理由：MTP 技术让本地大模型推理速度翻倍，尤其适合在消费级显卡上跑密集模型的开发者——2 块 RTX 5090 就能让 27B 模型达到 117 tps，值得直接试开源代码。

原文

5月21日

12:39

rohanpaul_ai@rohanpaul_ai

精选76°

atomic.chat 展示了 Multi-Token Prediction（MTP）技术，让本地运行的 Qwen 27B 密集模型从 51 tokens/s 提升到 117 tokens/s，MoE 35B-A3B 模型在 2x RTX 5090 上从 218 提升到 267 tokens/s。MTP 通过一次生成并验证多个未来 token，减少 GPU 重复读取模型权重的次数，从而突破内存带宽瓶颈。测试中约 80% 的 draft token 被接受，且零精度损失，仅额外占用约 1GB VRAM。该项目完全开源，对本地大模型部署者是个重大利好。

AI模型本地大模型 MTP/多 token 预测推理加速 Qwen 开源/仓库

推荐理由：本地大模型用户终于可以突破内存带宽瓶颈了——MTP 让 Qwen 27B 速度翻倍还零精度损失，跑本地模型的开发者建议直接去 GitHub 试。

原文

08:00

Fireworks AI@FireworksAI_HQ

Fireworks AI 与 ExaAILabs 联合举办了第 7 届 Nerd Meet Up，邀请了 MonacoGTM、ComposioDevs 等团队分享。讨论主题包括：大规模构建内部上下文层、为知识工作智能体闭环、以及通过在线投机训练加速推理和强化学习部署。活动在 Exa 的办公室举行，现场氛围热烈。

行业智能体推理加速上下文层 Fireworks AI ExaAILabs

推荐理由：对于正在搭建内部知识系统或优化推理管线的 AI 工程师，这场 Meet Up 的议题直接命中痛点——大规模上下文层和智能体闭环是当前企业落地的关键，值得关注后续分享。

原文

5月20日

08:44

NVIDIA AI@NVIDIAAI

76°

NVIDIA 发布了 Nemotron-Labs-Diffusion 系列扩散语言模型，与传统逐 token 生成不同，该模型能在单次推理中并行生成多个 token，并支持在生成过程中进行修订。这种设计充分利用了现代 GPU 的并行计算能力，显著提升推理速度。模型系列包含 3B 到 14B 参数规模，并提供了视觉-语言变体。目前该模型已开源可用。

AI模型扩散模型并行生成 NVIDIA Nemotron 推理加速

推荐理由：NVIDIA 的扩散语言模型打破了传统逐 token 生成瓶颈，做推理加速或大模型部署的团队可以直接拿来提升 GPU 利用率，值得关注。

原文

5月14日

14:13

Cohere@cohere

精选

Cohere 发布技术报告，指出基于混合专家模型（MoE）的大型语言模型在推测解码（speculative decoding）中表现更优，打破了传统认知。推测解码是一种加速推理的技术，通常认为对密集模型更有效，但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本，推动 MoE 模型在实时应用中的部署。

论文 MoE 推测解码推理加速 Cohere 技术报告

推荐理由：做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构，建议点开报告看具体数据。

原文