13:03arXiv cs.AI@Yuanming Yang, Guoqing Ma, Bo Wang, Yuan Zhang, Wei Tang, Chenyi Li, Haoyang Huang, Nan DuanDiT-Reward利用预训练的文生图Diffusion Transformer(DiT)的生成表征进行奖励预测。在HPDv2和HPDv3基准上分别达到85.6%和77.6%的准确率,全面超越HPSv3。冻结生成骨干网络时,轻量头仍能提取有效偏好。用于优化Stable Diffusion 3.5 Large时,DiT-Reward在生成逼真度上明显优于HPSv3,且推理速度提升1.65倍。论文DiT-RewardDiffusion TransformerHPSv3文生图奖励模型推荐理由:这篇论文教你直接用文生图模型的内部表征来当奖励模型,效果比HPSv3好,还能加速推理,适合想搞图像生成优化的朋友原文
09:36arXiv cs.AI@Xuanyi Liu, Deyi Ji, Junyu Lu, Jing Wang, Qianxiong Xu, Xuhang Chen, Tianrun Chen, Siwei Ma精选FaithRewriter 是一种新的提示增强框架,旨在解决文生图模型中用户意图与生成结果之间的差距。现有方法主要优化提示的流畅性和可读性,但缺乏视觉基础,容易过度推断缺失细节。FaithRewriter 首先利用多模态大模型根据原始提示生成中间图像作为视觉线索,然后将该图像与提示结合输入大规模语言模型,生成视觉上更合理的增强内容。最后,这些增强内容被蒸馏到小规模语言模型中实现高效部署。实验表明,FaithRewriter 生成的提示更忠实于用户意图,视觉上更合理,有效缩小了意图-生成差距。论文文生图提示增强FaithRewriter多模态视觉锚点推荐理由:做文生图应用或研究的人会关心——FaithRewriter 用视觉锚点解决了提示重写中的过度推断问题,生成的提示更贴近用户真实意图,值得在项目中尝试集成。原文