精选 AI 资讯 · AI 热点

6月17日

01:55

AWS Machine Learning Blog@Andy Peng

精选

本文介绍如何利用Amazon SageMaker AI中的P-EAGLE方法并行化推测解码，加速生成式AI推理。用户可从SageMaker JumpStart目录中选择兼容模型，并配置并行草稿生成参数。通过部署优化的实时SageMaker AI端点，可显著降低推理延迟。P-EAGLE基于EAGLE框架，支持多头并行推测，适用于Llama等主流模型。

技巧 P-EAGLE Amazon SageMaker AI SageMaker JumpStart 推测解码推理加速

推荐理由：AWS教你用P-EAGLE在SageMaker上把推理加速好几倍，选模型调参数就能部署，简单实用。

原文

6月16日

20:28

Tri Dao (FlashAttention)@tri_dao

精选

在运行大规模上下文智能体时，Qwen 3.5和Nemotron Ultra等混合模型面临Gated-DeltaNet/Mamba状态的瓶颈。一个简单洞察是加载状态并计算但不存储，可使速度提升2倍。该重计算技巧最终解锁了状态空间模型（SSM）的推测解码（spec decoding）功能。

技巧 Qwen 3.5 Nemotron Ultra Mamba SSM 推测解码

推荐理由：不用存状态，算完就扔，SSM推理直接快一倍，Qwen 3.5和Nemotron Ultra用户试试这个技巧。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:02

arXiv cs.LG@Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, An Yang, Bowen Yu, Bo Zheng, Fei Huang, Junyang Lin, Dayiheng Liu, Jingren Zhou

精选83°

强化学习（RL）训练中，rollout 阶段是主要瓶颈。多 Token 预测（MTP）本可通过推测解码加速，但 RL 训练中 MTP 接受率会因模型熵波动而显著下降。Bebop 研究揭示了熵与接受率的负线性关系，并提出概率拒绝采样可缓解熵干扰。他们进一步提出端到端 TV 损失函数，直接优化拒绝采样接受率，在数学推理、代码生成和智能体任务上实现最高 95% 接受率，吞吐量提升 25%。在 Qwen3.5/3.6/3.7 模型上，异步 RL 训练端到端加速达 1.8 倍，且无需在线更新 MTP。

论文强化学习多 Token 预测推测解码拒绝采样 Qwen

推荐理由：RL 训练加速是 LLM 后训练的核心痛点，Bebop 用 MTP+拒绝采样把加速做到 1.8 倍，做 RL 训练优化的团队可以直接参考其 TV 损失和离线训练策略。

原文

6月2日

12:00

arXiv cs.AI@Junxia Cui, Haotian Ye, Runchu Tian, Hongcan Guo, Jinya Jiang, Haoru Li, Chaojie Ren, Yiming Huang, Kaijie Zhu, Zhongkai Yu, Kun Zhou, Jingbo Shang

精选

扩散大语言模型（dLLMs）作为自回归（AR）模型的替代方案，通过并行或块解码实现更快推理，但其掩码语言建模公式与标准token级推测解码不兼容。AR模型利用因果掩码实现单次前向验证多个草稿token，而dLLMs依赖掩码token和双向注意力，导致有效上下文随去噪步骤变化，无法直接进行token级推测验证。为此，研究者提出SimSD，一种简单有效的推测解码算法，采用即插即用的掩码策略，为dLLMs提供时间上有效的token级上下文。该方法显式引入草稿模型的参考token，并设计注意力掩码调节其与当前步骤token的交互，使dLLMs能在单次前向前向计算草稿token的有效logits，恢复AR模型的验证能力同时保持dLLMs的并行解码优势。SimSD无需训练，可灵活集成KV缓存和块解码等加速技术，在四个基准测试中实现高达7.46倍的解码吞吐量提升，同时保持甚至改善平均生成质量。

论文推测解码扩散语言模型推理加速掩码策略训练无关

推荐理由：扩散语言模型终于有了实用的推测解码方案，做模型推理加速的团队可以直接集成SimSD，无需额外训练就能获得数倍吞吐提升，值得关注。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02