全部 AI 动态 · AI 热点

6月24日

12:11

arXiv cs.AI@Zixuan Li, Haokun Lin, Yicheng Xiao, Zhiwei Li, Xinyang Song, Zelong Zheng, Yong He, Heng Yao, Ke Ding, Chao Yu, Chuan Yuan, Qi Li, Zhenan Sun

统一多模态大语言模型在文本到图像生成中仍难以精确遵循结构提示（如物体计数、空间关系、属性绑定、粗略布局）。IV-CoT提出的隐式视觉思维链框架将视觉条件分解为结构查询和语义查询的级联，结构查询先形成隐式视觉计划，语义查询再基于该计划渲染外观。训练时引入草图监督信号，无需推理时草图提取或中间解码，在单个前向传播中完成隐式CoT推理。该方法在GenEval和T2I-CompBench基准上取得更优结果，可视化分析验证了结构和语义查询的互补作用。

论文 IV-CoT MLLM 文本到图像生成结构感知视觉思维链

推荐理由：这篇论文解决了文生图模型在物体数量、空间位置等结构细节上经常翻车的问题，用隐式思维链单次前向传播搞定，在GenEval和T2I-CompBench上效果更好。

原文

6月17日

09:42

arXiv cs.AI@Jinjie Shen, Wei Deng, Xian Hu, Daiguo Zhou, Jian Luan

STAR方法针对文本到图像生成的RL后训练中的奖励粒度不匹配问题，提出时空自适应奖励分配。它利用生成模型内的文本-图像注意力，在去噪步骤和生成过程中动态构建空间分配图，将组相对优势分配给更相关的潜在区域。以Stable Diffusion 3.5 Medium为基础模型，在GenEval、OCR文本渲染和PickScore三项任务上分别达到0.9759、0.9757和23.60的分数。

论文 STAR 文本到图像生成强化学习 Stable Diffusion 奖励分配

推荐理由：这篇论文提出STAR方法，通过空间和时间自适应分配奖励，让RL后训练更精准地优化文本到图像生成，效果在GenEval等基准上显著提升。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日