精选 AI 资讯 · AI 热点

6月17日

01:55

AWS Machine Learning Blog@Andy Peng

精选

本文介绍如何利用Amazon SageMaker AI中的P-EAGLE方法并行化推测解码，加速生成式AI推理。用户可从SageMaker JumpStart目录中选择兼容模型，并配置并行草稿生成参数。通过部署优化的实时SageMaker AI端点，可显著降低推理延迟。P-EAGLE基于EAGLE框架，支持多头并行推测，适用于Llama等主流模型。

技巧 P-EAGLE Amazon SageMaker AI SageMaker JumpStart 推测解码推理加速

推荐理由：AWS教你用P-EAGLE在SageMaker上把推理加速好几倍，选模型调参数就能部署，简单实用。

原文

6月15日

11:11

arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi

精选

论文发现消费级Ampere GPU上扩散Transformer的INT8量化常因反量化回bf16而无法利用INT8张量核心。作者为Ideogram 4.0线性层设计了一个融合Triton INT8 GEMM内核，在Ampere张量核心上执行int8×int8→int32，并在epilogue中折叠逐token×逐通道反量化和偏置。该内核实现2.8-4.2倍于bf16的GEMM加速，并保持余弦相似度1.0且无NaN。端到端测试中，在单张RTX 3090上768px分辨率获得约9-10%提速，1024px生成耗时156.5秒，优于NF4（164.5秒）和FP8（172.9秒）基线，且PickScore/CLIPScore无质量损失。

论文 Ideogram 4.0 RTX 3090 INT8 GEMM 推理加速 Triton

推荐理由：INT8反超FP8，单卡RTX 3090跑1024px扩散模型

原文

6月12日

12:31

karminski-牙医 (AI工具)@karminski3

精选

Google发布了Gemma小模型的Diffusion版本，名为Diffusion Gemma，大小26B但激活参数量仅4B。与NVIDIA合作针对RTX 4090和5090优化，5090上每秒可生成700+ token。Diffusion模型像刮奖一样逐片生成文本，速度远快于传统逐字生成模型，但输出质量略低。在AIME 2026数学测试中达到Gemma4-26B-A4B的94%水平，在Agent能力测试中达到82%。4bit量化版本仅需16G显存即可运行。

AI模型 Diffusion模型 Gemma Google NVIDIA 推理加速

推荐理由：Diffusion Gemma把文本生成速度拉到单卡700TPS，做实时对话或高吞吐推理的团队可以直接用，4bit量化16G显存就能跑，值得试试能否做投机解码的草稿模型。

原文

12:10

vLLM@vllm_project

精选73°

GoogleDeepMind 推出了 DiffusionGemma，这是一个基于 Gemma4 架构的 26B 参数扩散语言模型（dLLM），并成为 vLLM 原生支持的首个扩散语言模型。与传统自回归模型逐个生成 token 不同，DiffusionGemma 能并行去噪 256 个 token 的块，在单张 H200（FP8）上以 batch size 1 实现超过 1200 输出 token/秒的吞吐量。该模型通过 vLLM 的 model runner v2 的 ModelState 和现有推测解码路径实现，对调度器和运行器改动极小。FP8 和 NVFP4 检查点已托管在 RedHat AI 中心，由 GoogleDeepMind、RedHat AI 和 NVIDIA AI 团队合作完成。这一进展标志着扩散模型在高效文本生成领域迈出重要一步。

AI模型扩散语言模型 vLLM GoogleDeepMind 并行生成推理加速

推荐理由：DiffusionGemma 用并行去噪替代逐 token 生成，大幅提升推理速度，做大规模文本生成或实时应用的团队可以直接在 vLLM 中体验，值得关注。

原文

09:13

arXiv cs.AI@Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Pengyu Zhao

精选

MiniMax 提出了一种名为 MiniMax Sparse Attention (MSA) 的块级稀疏注意力机制，旨在解决大语言模型在超长上下文（百万级 token）下的计算瓶颈。MSA 基于分组查询注意力（GQA），通过轻量级索引分支对键值块进行评分，并为每个 GQA 组独立选择 Top-k 子集，实现高效的组级稀疏检索。在 109B 参数的多模态模型上，MSA 在 1M 上下文长度下将每 token 注意力计算量减少 28.4 倍，并在 H800 GPU 上实现 14.2 倍预填充和 7.6 倍解码加速。该方法的推理内核已开源，同时发布了基于 MSA 的生产级多模态模型。

论文稀疏注意力长上下文推理加速 MiniMax 开源/仓库

推荐理由：做长上下文推理或 agent 工作流的开发者，终于有了一个能直接部署的稀疏注意力方案——MSA 在 109B 模型上实现 28 倍计算缩减，且内核已开源，值得立刻试跑。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

12:07

arXiv cs.LG@Xuezhen Xie, Zhiqiang Zhou

精选

CLP提出了一种新的多Token预测（MTP）加速方法，解决了现有MTP方法中“头-主干竞争”导致的质量下降问题。该方法通过“主干即架构”原则，让主干语言模型头始终生成第一个Token，MTP头只负责后续Token。CLP使用轻量级线性层（4.6K-7.7K参数）预测可安全接受的Token数量，在Qwen2.5模型上实现1.14x-1.29x加速，且质量零损失（重复率<0.02），优于传统门控网络方法。实验表明，较短的预测窗口（k=2）在大模型上可恢复24%的MTP头准确率，为未来加速研究提供了清晰路线图。

论文推理加速多Token预测 Qwen2.5 零损失轻量架构

推荐理由：CLP解决了多Token预测加速中质量下降的核心痛点，做LLM推理优化的团队可以直接参考其轻量设计，在保持输出质量的同时获得稳定加速。

原文

6月5日

12:06

arXiv cs.AI@Yutao Sun, Yanqi Zhang, Li Dong, Jianyong Wang, Furu Wei

精选

本文提出跨层稀疏注意力（CLSA），一种基于KV共享架构（如YOCO）的新方法。核心创新在于不仅共享KV缓存，还共享路由索引——单个索引器计算一次token级top-k选择，结果跨层复用，既保留了细粒度选择性，又分摊了路由开销。实验显示，在128K上下文下，CLSA实现最高7.6倍解码加速和17.1倍整体吞吐提升，同时保持模型质量。这为长上下文LLM提供了一种兼顾效率与质量的架构方案。

论文稀疏注意力长上下文推理加速 KV缓存 YOCO

推荐理由：长上下文推理的瓶颈终于有了系统级解法——CLSA通过共享路由索引同时加速预填充、缓存和解码，做LLM推理优化的团队值得看看这个架构思路。

原文

6月2日

12:00

arXiv cs.AI@Junxia Cui, Haotian Ye, Runchu Tian, Hongcan Guo, Jinya Jiang, Haoru Li, Chaojie Ren, Yiming Huang, Kaijie Zhu, Zhongkai Yu, Kun Zhou, Jingbo Shang

精选

扩散大语言模型（dLLMs）作为自回归（AR）模型的替代方案，通过并行或块解码实现更快推理，但其掩码语言建模公式与标准token级推测解码不兼容。AR模型利用因果掩码实现单次前向验证多个草稿token，而dLLMs依赖掩码token和双向注意力，导致有效上下文随去噪步骤变化，无法直接进行token级推测验证。为此，研究者提出SimSD，一种简单有效的推测解码算法，采用即插即用的掩码策略，为dLLMs提供时间上有效的token级上下文。该方法显式引入草稿模型的参考token，并设计注意力掩码调节其与当前步骤token的交互，使dLLMs能在单次前向前向计算草稿token的有效logits，恢复AR模型的验证能力同时保持dLLMs的并行解码优势。SimSD无需训练，可灵活集成KV缓存和块解码等加速技术，在四个基准测试中实现高达7.46倍的解码吞吐量提升，同时保持甚至改善平均生成质量。

论文推测解码扩散语言模型推理加速掩码策略训练无关

推荐理由：扩散语言模型终于有了实用的推测解码方案，做模型推理加速的团队可以直接集成SimSD，无需额外训练就能获得数倍吞吐提升，值得关注。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月28日

17:17

marktechpost@Asif Razzaq

精选72°

Perplexity AI 开源了其重写的 Unigram 分词器，该分词器在 p50 延迟上比 Hugging Face tokenizers crate 低 5 倍，同时将生产环境的 CPU 利用率降低了 5-6 倍。这一改进主要针对重排序器（reranker）的延迟瓶颈，通过优化分词效率来提升整体推理性能。开源版本已在 GitHub 上发布，可供开发者直接使用。对于依赖大规模文本处理的 AI 团队来说，这能显著降低计算成本并加快响应速度。

AI模型分词器开源/仓库 Perplexity AI 延迟优化推理加速

推荐理由：做搜索或 RAG 系统的团队终于有了更快的分词方案——Perplexity 开源的这个 Unigram 分词器直接降低 5 倍延迟和 6 倍 CPU 消耗，建议有高吞吐需求的开发者立刻试一下。

原文

15:39

pandaily@contact@pandaily.com (Pandaily)

精选

中国 AI 独角兽 MiniMax 正在准备推出其下一代 M3 大语言模型，该模型采用自研稀疏注意力机制，声称预填充速度提升 9.7 倍。M3 模型旨在解决长上下文场景下的计算效率瓶颈，通过稀疏化注意力计算减少冗余，从而加速推理并降低资源消耗。这一进展对需要处理超长文本的 AI 应用（如文档分析、对话系统）具有重要意义。MiniMax 预计在 2026 年 5 月正式发布 M3 模型。

AI模型 MiniMax M3 稀疏注意力大语言模型推理加速

推荐理由：稀疏注意力是当前大模型效率优化的关键方向，MiniMax 的 9.7 倍提速对做长文本推理的开发者是直接利好，值得关注其技术细节和开源计划。

原文

5月25日

04:37

rohanpaul_ai@rohanpaul_ai

精选72°

阿里巴巴与南京大学联合发表论文，提出RTPurbo方法，通过轻量级适配将百万token预填充速度提升9.36倍（对比FlashAttention-2）。该方法发现训练好的全注意力模型已存在隐藏稀疏结构，无需重新训练。RTPurbo识别出少数需要远距离token的注意力头，其余头聚焦邻近文本，并使用16维索引器快速定位关键token。在长上下文基准和推理任务中，RTPurbo保持接近全注意力的精度，同时实现高达9.36倍加速。这证明长上下文推理中的浪费比表面看起来更有结构性。

论文长上下文注意力稀疏化推理加速 RTPurbo Alibaba

推荐理由：长上下文推理的算力瓶颈是AI应用落地的关键障碍，做LLM推理优化或长文档处理的团队可以直接参考RTPurbo的稀疏化思路，无需从头训练模型。

原文

02:52

rohanpaul_ai@rohanpaul_ai

精选72°

研究发现，大型混合专家（MoE）模型在处理许多简单token时，浪费了约一半的专家计算资源。新提出的ZEDA（零专家自蒸馏适应）框架，通过为路由器添加“零专家”选项，让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练，而是将原MoE模型作为冻结教师，通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试，去除了约50%的专家计算，精度损失极小，实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度，而是与不确定性相关，为部署MoE模型提供了更经济的方案。

论文 MoE 模型优化推理加速自蒸馏 Qwen3 GLM

推荐理由：部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token，推理速度提升20%且几乎不掉精度，做模型推理优化的开发者可以直接参考论文方法。

原文

5月23日

16:19

@atomic_chat_hq@atomic_chat_hq

精选72°

Atomic Chat 团队通过 Multi-Token Prediction (MTP) 技术，在 2 块 RTX 5090 上对 Qwen 模型实现了最高 2.5 倍的推理加速。其中，Qwen3.6 27B 密集模型从 51 tps 提升至 117 tps（+137%），而 MoE 模型 35B-A3B 从 218 tps 提升至 267 tps（+25%）。MTP 通过一次前向传播验证多个预测 token，显著减少了内存带宽瓶颈，密集模型受益更大。该技术保持零精度损失，仅需额外约 1 GB 显存，且代码已开源。

AI模型推理加速 MTP/多token预测 Qwen MoE/密集模型开源/仓库

推荐理由：MTP 技术让本地大模型推理速度翻倍，尤其适合在消费级显卡上跑密集模型的开发者——2 块 RTX 5090 就能让 27B 模型达到 117 tps，值得直接试开源代码。

原文

09:53

09:53Hugging Face: Blog（博客/媒体）

精选

NVIDIA 发布了 Nemotron-Labs 扩散语言模型，该模型采用扩散机制替代传统的自回归生成方式，大幅提升文本生成速度，接近光速。与 GPT-4 等模型相比，Nemotron-Labs 在保持生成质量的同时，推理速度提升了一个数量级。该模型在多个基准测试中表现出色，尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式，让文本生成更接近实时交互。

AI模型扩散模型文本生成 NVIDIA 推理加速 Nemotron-Labs

推荐理由：NVIDIA 的扩散语言模型将文本生成速度推向新高度，做实时对话或低延迟应用的开发者可以直接关注，它可能改变你对大模型推理速度的认知。

原文

5月21日

12:39

rohanpaul_ai@rohanpaul_ai

精选76°

atomic.chat 展示了 Multi-Token Prediction（MTP）技术，让本地运行的 Qwen 27B 密集模型从 51 tokens/s 提升到 117 tokens/s，MoE 35B-A3B 模型在 2x RTX 5090 上从 218 提升到 267 tokens/s。MTP 通过一次生成并验证多个未来 token，减少 GPU 重复读取模型权重的次数，从而突破内存带宽瓶颈。测试中约 80% 的 draft token 被接受，且零精度损失，仅额外占用约 1GB VRAM。该项目完全开源，对本地大模型部署者是个重大利好。

AI模型本地大模型 MTP/多 token 预测推理加速 Qwen 开源/仓库

推荐理由：本地大模型用户终于可以突破内存带宽瓶颈了——MTP 让 Qwen 27B 速度翻倍还零精度损失，跑本地模型的开发者建议直接去 GitHub 试。

原文

5月20日

11:31

arXiv cs.LG@Yuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang

精选

投机解码通过草稿-验证范式加速大模型推理，但现有方法构建的庞大草稿树带来严重的显存带宽和计算开销。动态深度剪枝虽能减少延迟，却会丢弃潜在有效候选，导致接受率无法达到稠密树的上限。本文提出Graft框架，将剪枝与检索作为相互增强的操作：剪枝释放计算预算，检索补偿剪枝导致的覆盖损失并恢复接受长度。Graft采用“先剪后接”机制，以近乎零开销将高预测性的检索令牌填入剪枝空位，无需训练且无损。在短上下文、长上下文及大规模模型（如Qwen3-235B）上，Graft实现了最高5.41倍加速，平均加速比EAGLE-3提升21.8%，并初步探索了在非自回归草稿范式中的应用。

论文投机解码推理加速剪枝检索补偿大模型部署

推荐理由：做推理加速的团队终于有了一个不牺牲接受率的剪枝方案——Graft用检索补偿剪枝损失，直接提升EAGLE-3 21.8%的加速比，搞LLM部署的值得试试。

原文

5月19日

11:01

arXiv cs.LG@Grigory Bartosh, David Ruhe, Emiel Hoogeboom, Jonathan Heek, Thomas Mensink, Tim Salimans

精选

Dual-Rate Diffusion 提出了一种新的扩散模型加速方法，通过交错执行一个稀疏更新的重上下文编码器和一个轻量去噪模型来降低推理成本。重编码器每几步提取一次高维特征，轻量模型则在每一步复用这些特征进行高效去噪。在 ImageNet 基准上，该方法在保持生成质量的同时将计算成本降低 2-4 倍。此外，该方法与蒸馏技术（如 Moment Matching Distillation）兼容，可进一步加速少步生成。

论文扩散模型推理加速 ImageNet 蒸馏生成模型

推荐理由：扩散模型推理慢是落地痛点，Dual-Rate Diffusion 用轻量网络复用特征，做图像生成的团队可以直接拿来加速现有模型，效果不打折。

原文

5月18日

11:50

arXiv cs.AI@Jin Shi, Brady Zhang, Yishun Lu

精选

VLA-AD提出一种蒸馏框架，利用视觉语言模型作为离线语义监督器，将大型VLA教师模型（如OpenVLA-7B）压缩为轻量级学生策略（158M参数），模型大小减少44倍，推理速度提升3.28倍（12.5 Hz on RTX 4090），性能仅下降0.27%。该方法不仅模仿底层动作，还引入任务阶段锚点和多帧操作方向描述等高层语义信号，仅在训练时使用，测试时学生策略独立运行。在LIBERO基准测试中，VLA-AD对π0.5-4B教师也有效，学生策略在部分任务上甚至超越教师。额外分析表明，语义引导使学生对教师动作噪声（如高频夹爪误操作）更鲁棒。

论文 VLA策略模型蒸馏机器人操控视觉语言模型推理加速

推荐理由：做机器人策略部署的团队终于有了实用的模型压缩方案——VLA-AD用VLM离线语义信号替代在线大模型，7B教师变158M学生，速度3倍提升且性能几乎无损，做实时闭环控制的开发者可以直接参考。

原文

5月14日

14:13

Cohere@cohere

精选

Cohere 发布技术报告，指出基于混合专家模型（MoE）的大型语言模型在推测解码（speculative decoding）中表现更优，打破了传统认知。推测解码是一种加速推理的技术，通常认为对密集模型更有效，但 Cohere 的实验表明 MoE 架构能进一步提升其效率。该发现有望降低推理成本，推动 MoE 模型在实时应用中的部署。

论文 MoE 推测解码推理加速 Cohere 技术报告

推荐理由：做 LLM 推理优化的开发者值得关注——MoE 模型在推测解码上的意外优势可能改变成本结构，建议点开报告看具体数据。

原文

5月13日

19:12

arXiv cs.LG@Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu, Reyna Abhyankar, Qingyang Wu, Austin Silveria, Pragaash Ponnusamy, Jue Wang, Ben Athiwaratkun, Leon Song, Tri Dao, Daniel Y. Fu, Chris De Sa

精选

量化是加速生成模型推理的标准技术，但传统块浮点（BFP）格式使用基于块最大幅度的固定缩放因子，可能导致量化误差次优。本文提出ScaleSearch方法，通过细粒度搜索利用微缩放格式的尾数位，最小化量化误差。ScaleSearch可集成于后训练量化（PTQ）和低精度注意力机制，实验显示NVFP4量化误差降低27%，Qwen3-8B在MATH500上PTQ提升15点。此外，ScaleSearchAttention算法在Llama 3.1 70B上实现Wikitext-2困惑度降低0.77点，几乎无性能损失。

论文量化块浮点 NVFP4 后训练量化推理加速

推荐理由：做模型量化和推理加速的团队终于有了更优的缩放策略——ScaleSearch直接提升精度且兼容现有方法，建议做低精度部署的开发者试试。

原文