12:11
arXiv cs.AI@Zixuan Li, Haokun Lin, Yicheng Xiao, Zhiwei Li, Xinyang Song, Zelong Zheng, Yong He, Heng Yao, Ke Ding, Chao Yu, Chuan Yuan, Qi Li, Zhenan Sun 统一多模态大语言模型在文本到图像生成中仍难以精确遵循结构提示(如物体计数、空间关系、属性绑定、粗略布局)。IV-CoT提出的隐式视觉思维链框架将视觉条件分解为结构查询和语义查询的级联,结构查询先形成隐式视觉计划,语义查询再基于该计划渲染外观。训练时引入草图监督信号,无需推理时草图提取或中间解码,在单个前向传播中完成隐式CoT推理。该方法在GenEval和T2I-CompBench基准上取得更优结果,可视化分析验证了结构和语义查询的互补作用。
推荐理由:这篇论文解决了文生图模型在物体数量、空间位置等结构细节上经常翻车的问题,用隐式思维链单次前向传播搞定,在GenEval和T2I-CompBench上效果更好。