Graph-LLaDA：扩散模型在图到文本生成中优先解码实体，SFT反而破坏策略

精选理由

这篇论文揭示了扩散模型在图到文本任务中的独特解码机制，做结构化文本生成或知识图谱相关工作的开发者值得关注，尤其是SFT反而有害的发现可能改变你的微调策略。

AI 摘要

本文首次系统研究了掩码扩散语言模型（MDLM）在图到文本生成中的解码轨迹，发现MDLM会优先解码实体，然后是关系词和功能词，最后才是结构词，这与自回归模型的线性生成方式不同。研究还发现监督微调（SFT）会破坏这一策略，过早固定结构词导致输出长度固定，引发信息遗漏或幻觉。为此，作者提出了一种无需训练的推理时修改方法——lambda缩放结构解码，将BLEU-4提升9.4分。最后，他们提出了Graph-LLaDA，将图Transformer编码器集成到LLaDA的解码过程中，显式利用关系图结构。跨数据集评估表明，基于LLM和MDLM的方法泛化能力显著优于传统基线。

AI 翻译 · 中文

arXiv cs.AIWe present the first systematic study of masked diffusion language models (MDLMs) for graph-to-text generation. We analyze MDLM generation trajectories -- the order in which tokens are unmasked during iterative decoding …

阅读原文