AITOP

5月17日

01:23

berryxia@berryxia

精选63

Duke大学团队提出REPR-ALIGN方法，通过将扩散语言模型（DLM）的隐藏状态对齐到预训练自回归语言模型（AR LM）的表示空间，避免从零训练DLM的高成本。该方法仅修改注意力掩码，不增加适配器或改变架构，在低数据场景下效果显著，训练速度最高提升4倍。论文指出DLM只需学习解码路径，无需重新学习语言表示。相关论文和代码已开源。

论文扩散语言模型 DLM REPR-ALIGN 训练加速 Duke大学

推荐理由：做扩散模型或生成式AI的团队，终于不用从零训DLM了——对齐预训练AR模型就能省4倍训练成本，低数据场景尤其划算，建议直接看论文和代码。