精选理由
这篇论文解决了扩散语言模型在训练和推理时配置不一致的痛点,用ABD方法在多种配置下训练一个模型就能通用,不用再为不同解码策略分别训练了。
扩散语言模型(DLM)通常在固定上下文结构下训练,限制去噪到预定token子集,这导致训练与推理不匹配(模型需在任意配置下运行,训练网格外表现下降)。提出的Adaptive Block Diffusion (ABD)通过优化前缀窗口配置分布上的去噪风险来消除此不匹配,将配置视为随机变量,无需架构修改即可在全配置空间训练单一模型。实验表明ABD在不同解码尺度下保持结构一致性,避免离网格崩溃,恢复块大小与困惑度之间的单调关系,并在目标尺度上匹配或超越固定块专家。
AI 翻译 · 中文
扩散语言模型(DLM)通常在固定上下文结构下训练,限制去噪到预定token子集,这导致训练与推理不匹配(模型需在任意配置下运行,训练网格外表现下降)。提出的Adaptive Block Diffusion (ABD)通过优化前缀窗口配置分布上的去噪风险来消除此不匹配,将配置视为随机变量,无需架构修改即可在全配置空间训练单一模型。实验表明ABD在不同解码尺度下保持结构一致性,避免离网格崩溃,恢复块大小与困惑度之间的单调关系,并在目标尺度上匹配或超越固定块专家。
Diffusion Language Models (DLMs) are typically trained under fixed context structures, restricting denoising to predetermined token subsets. This creates a mismatch between training and inference, where models must opera…