论文精选

Elastic-dLLM:位置保持的扩散LLM上下文压缩与增强

Elastic-dLLM: Position Preserving Context Compression and Augmentation of Diffusion LLMs

精选理由

扩散LLM的并行解码效率一直是痛点,这篇工作直接戳中计算冗余的核心,做模型推理加速或长上下文应用的开发者值得关注,压缩方法可以直接集成到现有dLLM中。

AI 摘要

扩散语言模型(dLLM)通过联合去噪一批[MASK]令牌实现并行解码,但大块掩码令牌导致大量计算冗余。研究发现,许多计算花费在重复处理前文上下文和特征表示相同的[MASK]令牌上。为此,提出位置保持的[MASK]令牌压缩和终端感知增强方法,通过压缩冗余计算加速解码,并自然扩展到长上下文场景。在LLaDA-8B-Instruct和LLaDA-1.5等全序列dLLM上验证了效果,对LLaDA2.0-mini等块dLLM,通过保护终端[MASK]令牌增强上下文,以极小开销提升生成质量。

AI 翻译 · 中文

扩散语言模型(dLLM)通过联合去噪一批[MASK]令牌实现并行解码,但大块掩码令牌导致大量计算冗余。研究发现,许多计算花费在重复处理前文上下文和特征表示相同的[MASK]令牌上。为此,提出位置保持的[MASK]令牌压缩和终端感知增强方法,通过压缩冗余计算加速解码,并自然扩展到长上下文场景。在LLaDA-8B-Instruct和LLaDA-1.5等全序列dLLM上验证了效果,对LLaDA2.0-mini等块dLLM,通过保护终端[MASK]令牌增强上下文,以极小开销提升生成质量。

arXiv cs.LGUnlike autoregressive models, which generate one token at a time, dLLMs denoise a chunk of [MASK] tokens jointly and sample one or more tokens per step; despite enabling parallel decoding, this process incurs substantial