自适应块扩散：解决扩散语言模型中的训练-推理不匹配

精选理由

这篇论文解决了扩散语言模型在训练和推理时配置不一致的痛点，用ABD方法在多种配置下训练一个模型就能通用，不用再为不同解码策略分别训练了。

AI 摘要

扩散语言模型(DLM)通常在固定上下文结构下训练，限制去噪到预定token子集，这导致训练与推理不匹配（模型需在任意配置下运行，训练网格外表现下降）。提出的Adaptive Block Diffusion (ABD)通过优化前缀窗口配置分布上的去噪风险来消除此不匹配，将配置视为随机变量，无需架构修改即可在全配置空间训练单一模型。实验表明ABD在不同解码尺度下保持结构一致性，避免离网格崩溃，恢复块大小与困惑度之间的单调关系，并在目标尺度上匹配或超越固定块专家。

AI 翻译 · 中文

arXiv cs.LGDiffusion Language Models (DLMs) are typically trained under fixed context structures, restricting denoising to predetermined token subsets. This creates a mismatch between training and inference, where models must opera…

阅读原文