精选理由
这篇论文揭示了扩散模型在图到文本任务中的独特解码机制,做结构化文本生成或知识图谱相关工作的开发者值得关注,尤其是SFT反而有害的发现可能改变你的微调策略。
本文首次系统研究了掩码扩散语言模型(MDLM)在图到文本生成中的解码轨迹,发现MDLM会优先解码实体,然后是关系词和功能词,最后才是结构词,这与自回归模型的线性生成方式不同。研究还发现监督微调(SFT)会破坏这一策略,过早固定结构词导致输出长度固定,引发信息遗漏或幻觉。为此,作者提出了一种无需训练的推理时修改方法——lambda缩放结构解码,将BLEU-4提升9.4分。最后,他们提出了Graph-LLaDA,将图Transformer编码器集成到LLaDA的解码过程中,显式利用关系图结构。跨数据集评估表明,基于LLM和MDLM的方法泛化能力显著优于传统基线。
AI 翻译 · 中文
本文首次系统研究了掩码扩散语言模型(MDLM)在图到文本生成中的解码轨迹,发现MDLM会优先解码实体,然后是关系词和功能词,最后才是结构词,这与自回归模型的线性生成方式不同。研究还发现监督微调(SFT)会破坏这一策略,过早固定结构词导致输出长度固定,引发信息遗漏或幻觉。为此,作者提出了一种无需训练的推理时修改方法——lambda缩放结构解码,将BLEU-4提升9.4分。最后,他们提出了Graph-LLaDA,将图Transformer编码器集成到LLaDA的解码过程中,显式利用关系图结构。跨数据集评估表明,基于LLM和MDLM的方法泛化能力显著优于传统基线。
We present the first systematic study of masked diffusion language models (MDLMs) for graph-to-text generation. We analyze MDLM generation trajectories -- the order in which tokens are unmasked during iterative decoding …