精选 AI 资讯 · AI 热点

arXiv cs.AI@Junxia Cui, Haotian Ye, Runchu Tian, Hongcan Guo, Jinya Jiang, Haoru Li, Chaojie Ren, Yiming Huang, Kaijie Zhu, Zhongkai Yu, Kun Zhou, Jingbo Shang

精选

扩散大语言模型（dLLMs）作为自回归（AR）模型的替代方案，通过并行或块解码实现更快推理，但其掩码语言建模公式与标准token级推测解码不兼容。AR模型利用因果掩码实现单次前向验证多个草稿token，而dLLMs依赖掩码token和双向注意力，导致有效上下文随去噪步骤变化，无法直接进行token级推测验证。为此，研究者提出SimSD，一种简单有效的推测解码算法，采用即插即用的掩码策略，为dLLMs提供时间上有效的token级上下文。该方法显式引入草稿模型的参考token，并设计注意力掩码调节其与当前步骤token的交互，使dLLMs能在单次前向前向计算草稿token的有效logits，恢复AR模型的验证能力同时保持dLLMs的并行解码优势。SimSD无需训练，可灵活集成KV缓存和块解码等加速技术，在四个基准测试中实现高达7.46倍的解码吞吐量提升，同时保持甚至改善平均生成质量。

论文推测解码扩散语言模型推理加速掩码策略训练无关

推荐理由：扩散语言模型终于有了实用的推测解码方案，做模型推理加速的团队可以直接集成SimSD，无需额外训练就能获得数倍吞吐提升，值得关注。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月19日

11:07

arXiv cs.LG@Junyi Wu, Tianchen Zhao, Shaoqiu Zhang, Linfeng Zhang, Guohao Dai, Yu Wang

精选

扩散语言模型（dLLM）通过联合去噪一批[MASK]令牌实现并行解码，但大块掩码令牌导致大量计算冗余。研究发现，许多计算花费在重复处理前文上下文和特征表示相同的[MASK]令牌上。为此，提出位置保持的[MASK]令牌压缩和终端感知增强方法，通过压缩冗余计算加速解码，并自然扩展到长上下文场景。在LLaDA-8B-Instruct和LLaDA-1.5等全序列dLLM上验证了效果，对LLaDA2.0-mini等块dLLM，通过保护终端[MASK]令牌增强上下文，以极小开销提升生成质量。

论文扩散语言模型上下文压缩并行解码 LLaDA 计算冗余

推荐理由：扩散LLM的并行解码效率一直是痛点，这篇工作直接戳中计算冗余的核心，做模型推理加速或长上下文应用的开发者值得关注，压缩方法可以直接集成到现有dLLM中。

原文

5月17日

01:23

berryxia@berryxia

精选

Duke大学团队提出REPR-ALIGN方法，通过将扩散语言模型（DLM）的隐藏状态对齐到预训练自回归语言模型（AR LM）的表示空间，避免从零训练DLM的高成本。该方法仅修改注意力掩码，不增加适配器或改变架构，在低数据场景下效果显著，训练速度最高提升4倍。论文指出DLM只需学习解码路径，无需重新学习语言表示。相关论文和代码已开源。

论文扩散语言模型 DLM REPR-ALIGN 训练加速 Duke大学

推荐理由：做扩散模型或生成式AI的团队，终于不用从零训DLM了——对齐预训练AR模型就能省4倍训练成本，低数据场景尤其划算，建议直接看论文和代码。

原文