论文精选

FaithRewriter:用视觉锚点对齐提示重写,提升文生图忠实度

Seeing is Believing: Aligning Prompt Rewriting with Visual Anchors for Text-to-Image Generation

精选理由

做文生图应用或研究的人会关心——FaithRewriter 用视觉锚点解决了提示重写中的过度推断问题,生成的提示更贴近用户真实意图,值得在项目中尝试集成。

AI 摘要

FaithRewriter 是一种新的提示增强框架,旨在解决文生图模型中用户意图与生成结果之间的差距。现有方法主要优化提示的流畅性和可读性,但缺乏视觉基础,容易过度推断缺失细节。FaithRewriter 首先利用多模态大模型根据原始提示生成中间图像作为视觉线索,然后将该图像与提示结合输入大规模语言模型,生成视觉上更合理的增强内容。最后,这些增强内容被蒸馏到小规模语言模型中实现高效部署。实验表明,FaithRewriter 生成的提示更忠实于用户意图,视觉上更合理,有效缩小了意图-生成差距。

AI 翻译 · 中文

FaithRewriter 是一种新的提示增强框架,旨在解决文生图模型中用户意图与生成结果之间的差距。现有方法主要优化提示的流畅性和可读性,但缺乏视觉基础,容易过度推断缺失细节。FaithRewriter 首先利用多模态大模型根据原始提示生成中间图像作为视觉线索,然后将该图像与提示结合输入大规模语言模型,生成视觉上更合理的增强内容。最后,这些增强内容被蒸馏到小规模语言模型中实现高效部署。实验表明,FaithRewriter 生成的提示更忠实于用户意图,视觉上更合理,有效缩小了意图-生成差距。

arXiv cs.AIDespite the impressive capabilities of text-to-image (T2I) models, an intent-generation gap often persists due to the brevity and ambiguity of user prompts. Existing approaches primarily polish the prompt for fluency and