全部 AI 动态 · AI 热点

6月23日

13:03

13:03

arXiv cs.AI@Yuanming Yang, Guoqing Ma, Bo Wang, Yuan Zhang, Wei Tang, Chenyi Li, Haoyang Huang, Nan Duan

DiT-Reward利用预训练的文生图Diffusion Transformer（DiT）的生成表征进行奖励预测。在HPDv2和HPDv3基准上分别达到85.6%和77.6%的准确率，全面超越HPSv3。冻结生成骨干网络时，轻量头仍能提取有效偏好。用于优化Stable Diffusion 3.5 Large时，DiT-Reward在生成逼真度上明显优于HPSv3，且推理速度提升1.65倍。

论文 DiT-Reward Diffusion Transformer HPSv3 文生图奖励模型

推荐理由：这篇论文教你直接用文生图模型的内部表征来当奖励模型，效果比HPSv3好，还能加速推理，适合想搞图像生成优化的朋友

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

09:36

09:36

arXiv cs.AI@Xuanyi Liu, Deyi Ji, Junyu Lu, Jing Wang, Qianxiong Xu, Xuhang Chen, Tianrun Chen, Siwei Ma

精选

FaithRewriter 是一种新的提示增强框架，旨在解决文生图模型中用户意图与生成结果之间的差距。现有方法主要优化提示的流畅性和可读性，但缺乏视觉基础，容易过度推断缺失细节。FaithRewriter 首先利用多模态大模型根据原始提示生成中间图像作为视觉线索，然后将该图像与提示结合输入大规模语言模型，生成视觉上更合理的增强内容。最后，这些增强内容被蒸馏到小规模语言模型中实现高效部署。实验表明，FaithRewriter 生成的提示更忠实于用户意图，视觉上更合理，有效缩小了意图-生成差距。

论文文生图提示增强 FaithRewriter 多模态视觉锚点

推荐理由：做文生图应用或研究的人会关心——FaithRewriter 用视觉锚点解决了提示重写中的过度推断问题，生成的提示更贴近用户真实意图，值得在项目中尝试集成。