自适应块扩散:解决扩散语言模型中的训练-推理不匹配

Adaptive Block Diffusion: Resolving Training-Inference Mismatch in Diffusion Language Models

精选理由

这篇论文解决了扩散语言模型在训练和推理时配置不一致的痛点,用ABD方法在多种配置下训练一个模型就能通用,不用再为不同解码策略分别训练了。

AI 摘要

扩散语言模型(DLM)通常在固定上下文结构下训练,限制去噪到预定token子集,这导致训练与推理不匹配(模型需在任意配置下运行,训练网格外表现下降)。提出的Adaptive Block Diffusion (ABD)通过优化前缀窗口配置分布上的去噪风险来消除此不匹配,将配置视为随机变量,无需架构修改即可在全配置空间训练单一模型。实验表明ABD在不同解码尺度下保持结构一致性,避免离网格崩溃,恢复块大小与困惑度之间的单调关系,并在目标尺度上匹配或超越固定块专家。

AI 翻译 · 中文

扩散语言模型(DLM)通常在固定上下文结构下训练,限制去噪到预定token子集,这导致训练与推理不匹配(模型需在任意配置下运行,训练网格外表现下降)。提出的Adaptive Block Diffusion (ABD)通过优化前缀窗口配置分布上的去噪风险来消除此不匹配,将配置视为随机变量,无需架构修改即可在全配置空间训练单一模型。实验表明ABD在不同解码尺度下保持结构一致性,避免离网格崩溃,恢复块大小与困惑度之间的单调关系,并在目标尺度上匹配或超越固定块专家。

arXiv cs.LGDiffusion Language Models (DLMs) are typically trained under fixed context structures, restricting denoising to predetermined token subsets. This creates a mismatch between training and inference, where models must opera