12:11arXiv cs.AI@Zixuan Li, Haokun Lin, Yicheng Xiao, Zhiwei Li, Xinyang Song, Zelong Zheng, Yong He, Heng Yao, Ke Ding, Chao Yu, Chuan Yuan, Qi Li, Zhenan Sun统一多模态大语言模型在文本到图像生成中仍难以精确遵循结构提示(如物体计数、空间关系、属性绑定、粗略布局)。IV-CoT提出的隐式视觉思维链框架将视觉条件分解为结构查询和语义查询的级联,结构查询先形成隐式视觉计划,语义查询再基于该计划渲染外观。训练时引入草图监督信号,无需推理时草图提取或中间解码,在单个前向传播中完成隐式CoT推理。该方法在GenEval和T2I-CompBench基准上取得更优结果,可视化分析验证了结构和语义查询的互补作用。论文IV-CoTMLLM文本到图像生成结构感知视觉思维链推荐理由:这篇论文解决了文生图模型在物体数量、空间位置等结构细节上经常翻车的问题,用隐式思维链单次前向传播搞定,在GenEval和T2I-CompBench上效果更好。原文
09:42arXiv cs.AI@Jinjie Shen, Wei Deng, Xian Hu, Daiguo Zhou, Jian LuanSTAR方法针对文本到图像生成的RL后训练中的奖励粒度不匹配问题,提出时空自适应奖励分配。它利用生成模型内的文本-图像注意力,在去噪步骤和生成过程中动态构建空间分配图,将组相对优势分配给更相关的潜在区域。以Stable Diffusion 3.5 Medium为基础模型,在GenEval、OCR文本渲染和PickScore三项任务上分别达到0.9759、0.9757和23.60的分数。论文STAR文本到图像生成强化学习Stable Diffusion奖励分配推荐理由:这篇论文提出STAR方法,通过空间和时间自适应分配奖励,让RL后训练更精准地优化文本到图像生成,效果在GenEval等基准上显著提升。原文
10:22arXiv cs.LG@Kesong Li, Yixuan Xu, Kuo-kun Tseng, Weiyi Lu, Kan Liu, Tao Lan精选Linear-DPO 提出了一种新的直接偏好优化(DPO)方法,解决了现有 DPO 在文本到图像生成中的两大问题:仅适用于扩散模型而忽略流匹配,以及离散 NLP 的 DPO 目标与回归生成任务不匹配。论文通过统一的逆向 SDE 框架推导出覆盖扩散和流匹配的广义 DPO 目标,并从梯度角度指出标准 DPO 目标次优。Linear-DPO 用持续线性效用函数替代激进的 sigmoid 函数,并引入 EMA 更新的参考模型。在扩散模型(SD1.5、SDXL)和流匹配模型(SD3-Medium)上的实验表明,该方法优于现有基线。论文DPO扩散模型流匹配文本到图像生成偏好优化推荐理由:做文本到图像生成的团队终于有了更稳定的对齐方法——Linear-DPO 统一了扩散和流匹配,解决了 DPO 在生成任务中的目标不匹配问题,做图像生成微调的建议试试。原文