11:07arXiv cs.LG@Junyi Wu, Tianchen Zhao, Shaoqiu Zhang, Linfeng Zhang, Guohao Dai, Yu Wang精选扩散语言模型(dLLM)通过联合去噪一批[MASK]令牌实现并行解码,但大块掩码令牌导致大量计算冗余。研究发现,许多计算花费在重复处理前文上下文和特征表示相同的[MASK]令牌上。为此,提出位置保持的[MASK]令牌压缩和终端感知增强方法,通过压缩冗余计算加速解码,并自然扩展到长上下文场景。在LLaDA-8B-Instruct和LLaDA-1.5等全序列dLLM上验证了效果,对LLaDA2.0-mini等块dLLM,通过保护终端[MASK]令牌增强上下文,以极小开销提升生成质量。论文扩散语言模型上下文压缩并行解码LLaDA计算冗余推荐理由:扩散LLM的并行解码效率一直是痛点,这篇工作直接戳中计算冗余的核心,做模型推理加速或长上下文应用的开发者值得关注,压缩方法可以直接集成到现有dLLM中。原文