06:35vLLM@vllm_projectvLLM 社区正在将 DeepSeek 的 DSpark 推测解码算法集成到 vLLM 推理引擎中。DSpark 是一种推测解码算法,能显著提升大语言模型的推理速度。该集成旨在为所有 vLLM 用户带来更快的推理性能,无需额外配置。目前社区正在积极开发中,预计将提升 vLLM 的吞吐量并降低延迟。AI模型vLLMDeepSeekDSpark推理加速开源模型推荐理由:vLLM 社区正在把 DeepSeek 的 DSpark 算法加进来,推理速度能再上一个台阶,用 vLLM 的朋友可以期待了。原文
11:19Geek@geekbb有传闻称DeepSeek官方V4 API在2024年8月上线两周后,便开始使用氮气加速技术DSpark。该说法源自社区讨论,目前官方未确认。DSpark是DeepSeek自主研发的推理加速方案,可降低延迟和成本。若属实,则V4 API在发布后快速引入了性能优化。AI产品DeepSeekV4DSpark推理加速推荐理由:听说DeepSeek V4 API悄悄用上DSpark加速了?上线才两周,这速度有点猛。原文
02:16LMSYS Org (SGLang)@lmsysorg76°LMSYS 发布博客介绍 DFlash 和 Spec V2 推测解码技术。在 8 块 B200 上,针对 HumanEval 基准,DFlash + Spec V2 实现超过 4.3 倍基线吞吐量和 1.5 倍原生 MTP 吞吐量。其核心包括块扩散起草器(一次前向传播生成完整 token 块)和 KV 注入(目标模型特征馈入每层 KV 缓存),以及 Spec V2 重叠调度器带来 33% 端到端提升。该方案现已作为 SGLang 的默认推测解码引擎。AI模型DFlashSpec V2SGLang推测解码推理加速推荐理由:LMSYS 和 Modal 联手推出了 DFlash,让 Qwen 3.5 的推理速度比原生 MTP 快 1.5 倍,比基线快 4.3 倍,代码已开源,玩起来!原文
12:31karminski-牙医 (AI工具)@karminski3精选Google发布了Gemma小模型的Diffusion版本,名为Diffusion Gemma,大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化,5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本,速度远快于传统逐字生成模型,但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平,在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。AI模型Diffusion模型GemmaGoogleNVIDIA推理加速10 个信源在谈推荐理由:Diffusion Gemma把文本生成速度拉到单卡700TPS,做实时对话或高吞吐推理的团队可以直接用,4bit量化16G显存就能跑,值得试试能否做投机解码的草稿模型。原文
12:10vLLM@vllm_project精选73°GoogleDeepMind 推出了 DiffusionGemma,这是一个基于 Gemma4 架构的 26B 参数扩散语言模型(dLLM),并成为 vLLM 原生支持的首个扩散语言模型。与传统自回归模型逐个生成 token 不同,DiffusionGemma 能并行去噪 256 个 token 的块,在单张 H200(FP8)上以 batch size 1 实现超过 1200 输出 token/秒的吞吐量。该模型通过 vLLM 的 model runner v2 的 ModelState 和现有推测解码路径实现,对调度器和运行器改动极小。FP8 和 NVFP4 检查点已托管在 RedHat AI 中心,由 GoogleDeepMind、RedHat AI 和 NVIDIA AI 团队合作完成。这一进展标志着扩散模型在高效文本生成领域迈出重要一步。AI模型扩散语言模型vLLMGoogleDeepMind并行生成推理加速10 个信源在谈推荐理由:DiffusionGemma 用并行去噪替代逐 token 生成,大幅提升推理速度,做大规模文本生成或实时应用的团队可以直接在 vLLM 中体验,值得关注。原文
06:13Sundar Pichai@sundarpichai78°Google 发布了 DiffusionGemma,这是一个基于 Gemma 4 的实验性开放模型,采用文本扩散技术。与传统逐词预测不同,DiffusionGemma 能同时生成整段文本,实现高达 4 倍的推理加速。该模型目前以研究预览形式开放,旨在探索更高效的文本生成方式。这对于需要低延迟文本生成的场景(如实时对话、内容创作)具有重要意义。AI模型文本扩散推理加速Gemma 4开放模型Google7 个信源在谈推荐理由:推理速度提升 4 倍意味着更低的延迟和更低的成本,做实时文本生成或大规模内容生产的团队值得关注这个新方向。原文
13:29xiaomimimo@xiaomimimo88°小米与TileRT AI合作发布MiMo-V2.5-Pro-UltraSpeed,首次在1万亿参数模型上实现超过1000 tokens/s的输出速度。该突破仅使用单个标准8-GPGPU节点,无需Cerebras的晶圆级集成或Groq的纯片上SRAM芯片。技术细节已公开,并提供限时免费试用和API服务。这标志着大模型推理效率的重大飞跃,有望推动实时AI应用的普及。AI产品小米MiMo推理加速大模型GPU推荐理由:大模型推理速度的里程碑——1T模型跑出1000+ tokens/s,做实时AI应用和推理优化的团队值得关注,可以直接申请试用体验。原文
01:21Fireworks AI@FireworksAI_HQ78°MiniMax 发布了新模型 M3,其核心创新是 MiniMax Sparse Attention (MSA) 机制,在 1M token 长上下文场景下解码速度提升 15.6 倍。Fireworks AI 宣布与 MiniMax 合作,为本次发布提供推理支持。用户可前往 minimax.io 试用,模型权重发布后也将对 Fireworks 社区开放。这一突破显著降低了长上下文推理的延迟和成本,对需要处理超长文档、代码库或对话历史的开发者意义重大。AI模型MiniMaxM3稀疏注意力长上下文推理加速推荐理由:长上下文推理的瓶颈被 MSA 大幅缓解,做 RAG、长文档分析或大上下文应用的团队值得立即体验,速度提升意味着更低的成本和更好的用户体验。原文
04:37rohanpaul_ai@rohanpaul_ai精选72°阿里巴巴与南京大学联合发表论文,提出RTPurbo方法,通过轻量级适配将百万token预填充速度提升9.36倍(对比FlashAttention-2)。该方法发现训练好的全注意力模型已存在隐藏稀疏结构,无需重新训练。RTPurbo识别出少数需要远距离token的注意力头,其余头聚焦邻近文本,并使用16维索引器快速定位关键token。在长上下文基准和推理任务中,RTPurbo保持接近全注意力的精度,同时实现高达9.36倍加速。这证明长上下文推理中的浪费比表面看起来更有结构性。论文长上下文注意力稀疏化推理加速RTPurboAlibaba推荐理由:长上下文推理的算力瓶颈是AI应用落地的关键障碍,做LLM推理优化或长文档处理的团队可以直接参考RTPurbo的稀疏化思路,无需从头训练模型。原文
02:52rohanpaul_ai@rohanpaul_ai精选72°研究发现,大型混合专家(MoE)模型在处理许多简单token时,浪费了约一半的专家计算资源。新提出的ZEDA(零专家自蒸馏适应)框架,通过为路由器添加“零专家”选项,让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练,而是将原MoE模型作为冻结教师,通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试,去除了约50%的专家计算,精度损失极小,实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度,而是与不确定性相关,为部署MoE模型提供了更经济的方案。论文MoE模型优化推理加速自蒸馏Qwen3GLM推荐理由:部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token,推理速度提升20%且几乎不掉精度,做模型推理优化的开发者可以直接参考论文方法。原文
16:19@atomic_chat_hq@atomic_chat_hq精选72°Atomic Chat 团队通过 Multi-Token Prediction (MTP) 技术,在 2 块 RTX 5090 上对 Qwen 模型实现了最高 2.5 倍的推理加速。其中,Qwen3.6 27B 密集模型从 51 tps 提升至 117 tps(+137%),而 MoE 模型 35B-A3B 从 218 tps 提升至 267 tps(+25%)。MTP 通过一次前向传播验证多个预测 token,显著减少了内存带宽瓶颈,密集模型受益更大。该技术保持零精度损失,仅需额外约 1 GB 显存,且代码已开源。AI模型推理加速MTP/多token预测QwenMoE/密集模型开源/仓库推荐理由:MTP 技术让本地大模型推理速度翻倍,尤其适合在消费级显卡上跑密集模型的开发者——2 块 RTX 5090 就能让 27B 模型达到 117 tps,值得直接试开源代码。原文
12:39rohanpaul_ai@rohanpaul_ai精选76°atomic.chat 展示了 Multi-Token Prediction(MTP)技术,让本地运行的 Qwen 27B 密集模型从 51 tokens/s 提升到 117 tokens/s,MoE 35B-A3B 模型在 2x RTX 5090 上从 218 提升到 267 tokens/s。MTP 通过一次生成并验证多个未来 token,减少 GPU 重复读取模型权重的次数,从而突破内存带宽瓶颈。测试中约 80% 的 draft token 被接受,且零精度损失,仅额外占用约 1GB VRAM。该项目完全开源,对本地大模型部署者是个重大利好。AI模型本地大模型MTP/多 token 预测推理加速Qwen开源/仓库推荐理由:本地大模型用户终于可以突破内存带宽瓶颈了——MTP 让 Qwen 27B 速度翻倍还零精度损失,跑本地模型的开发者建议直接去 GitHub 试。原文
08:00Fireworks AI@FireworksAI_HQFireworks AI 与 ExaAILabs 联合举办了第 7 届 Nerd Meet Up,邀请了 MonacoGTM、ComposioDevs 等团队分享。讨论主题包括:大规模构建内部上下文层、为知识工作智能体闭环、以及通过在线投机训练加速推理和强化学习部署。活动在 Exa 的办公室举行,现场氛围热烈。行业智能体推理加速上下文层Fireworks AIExaAILabs推荐理由:对于正在搭建内部知识系统或优化推理管线的 AI 工程师,这场 Meet Up 的议题直接命中痛点——大规模上下文层和智能体闭环是当前企业落地的关键,值得关注后续分享。原文
08:44NVIDIA AI@NVIDIAAI76°NVIDIA 发布了 Nemotron-Labs-Diffusion 系列扩散语言模型,与传统逐 token 生成不同,该模型能在单次推理中并行生成多个 token,并支持在生成过程中进行修订。这种设计充分利用了现代 GPU 的并行计算能力,显著提升推理速度。模型系列包含 3B 到 14B 参数规模,并提供了视觉-语言变体。目前该模型已开源可用。AI模型扩散模型并行生成NVIDIANemotron推理加速推荐理由:NVIDIA 的扩散语言模型打破了传统逐 token 生成瓶颈,做推理加速或大模型部署的团队可以直接拿来提升 GPU 利用率,值得关注。原文
14:13Cohere@cohere精选Cohere 发布技术报告,指出基于混合专家模型(MoE)的大型语言模型在推测解码(speculative decoding)中表现更优,打破了传统认知。推测解码是一种加速推理的技术,通常认为对密集模型更有效,但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本,推动 MoE 模型在实时应用中的部署。论文MoE推测解码推理加速Cohere技术报告推荐理由:做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构,建议点开报告看具体数据。原文