10:09arXiv cs.AI@Guanbo Huang, Jingjia Mao, Fanding Huang, Fengkai Liu, Xiangyang Luo, Yaoyuan Liang, Jiasheng Lu, Xiaoe Wang, Pei Liu, Ruiliu Fu, Ruqi Huang, Shao-Lun Huang流匹配(Flow Matching)存在暴露偏差,现有缓解方法依赖静态约束。本文提出DEFAR框架,包含抗漂移修正(ADR)和频率补偿(FC)两个组件。ADR利用推理时漂移信号学习将偏离状态拉回目标方向,FC基于偏差自反馈权重增强缺失的低频成分。在CIFAR-10、CelebA-64、ImageNet-256/512上,DEFAR优于先前基线,且具有良好的可扩展性与推理鲁棒性。论文Flow MatchingDEFAR暴露偏差自修正图像生成推荐理由:这篇论文让模型靠偏差自己修正偏差,DEFAR在CIFAR和ImageNet上都能超过之前的方案,还更稳。原文
10:47arXiv cs.LG@Wei Zhou, Xiongwei Zhu, Zelin Xu, Bo Dong, Lixue Gong, Yongyuan Liang, Meng Chu, Leigang Qu, Lingdong Kong, Wei Liu, Tat-Seng Chua针对文本到图像(T2I)、局部编辑和全局编辑等能力难以统一且相互冲突的问题,论文提出DanceOPD框架。该框架基于流匹配模型,采用策略生成场蒸馏,将每个样本路由至对应能力场,并查询低噪声的学生诱导状态,用速度MSE目标训练。在T2I、编辑、真实性场吸收和CFG吸收等实验上,DanceOPD改善了多能力组合效果,增强了目标能力同时保持基准生成质量。论文DanceOPD流匹配模型图像生成蒸馏多能力推荐理由:这篇论文用DanceOPD把T2I、局部编辑和全局编辑统一到一个模型里,解决了相互干扰的问题,效果显著提升。原文
13:17arXiv cs.AI@Sara Dorfman, Maya Vishnevsky, Omer Dahary, Or Patashnik, Daniel Cohen-Or该论文提出一种名为Semantic Browsing的方法,解决文本到图像模型生成样本多样性不足的问题。传统方法依赖随机噪声产生无意义变化,而Semantic Browsing通过Vision Language Model(VLM)在文本层面施加结构化语义变异。用户可沿可解释的语义轴(如物体属性、场景布局)导航图像集,每个变体对应一个具体可理解的语义决策。实验表明该方法能生成多样且可浏览的设计空间。论文Semantic Browsing文本到图像Vision Language Model图像生成多样性推荐理由:想要生成同一主题下不同设计的图像?这篇论文教你用VLM在文本层面控制多样性,比随机抽噪声靠谱多了。原文
11:15arXiv cs.AI@Jinghong Lan, Wei Cheng, Yunuo Chen, Ziqi Ye, Peng Xing, Yixiao Fang, Rui Wang, Yufeng Yang, Xuanyang Zhang, Xianfang Zeng, Difan Zou, Gang Yu, Chi ZhangFreeStyle提出一种基于社区LoRA挖掘的可扩展双参考生成框架,利用社区LoRA作为风格和内容的组合锚点,构建大规模三元组数据(风格参考和内容参考)。采用两阶段课程,包括注意力级富集约束抑制风格参考泄漏,以及频率感知RoPE调制解决位置对应泄漏。引入新基准,包含风格不变内容对齐分数(CAS)和基于VLM的拒绝分数。实验表明,FreeStyle在风格对齐、内容保持和泄漏抑制之间取得强平衡。AI模型FreeStyleLoRA双参考生成图像生成风格迁移推荐理由:想同时控制图片风格和内容?FreeStyle用社区LoRA搞定双参考生成,还自带防泄漏机制,比以往方法更稳。原文
12:33arXiv cs.AI@Yihao Zhao, Xuan Han, Bin He, Mingyu You精选针对商品展示图像生成中,前景条件外绘(FCO)方法常出现伪影(即合成背景中与前景实例语义相同的区域)的问题,本文提出CCE-Diffusion框架。其核心是CCE-Module,通过定制概念嵌入来弥合通用名词语义与特定视觉实例之间的差距,并引入实例感知损失和语义保持提示模板来优化。实验表明,该方法显著减少了伪影,提升了图像质量。CCE-Module作为即插即用组件,可集成到多种FCO方法中,为电商等场景提供低成本高质量背景生成方案。论文图像生成外绘概念嵌入扩散模型电商应用推荐理由:电商和广告设计团队终于有了解决外绘伪影的实用方案——CCE-Diffusion能直接减少背景中与产品重复的语义区域,让产品更突出。做图像生成或商品展示的开发者可以试试集成这个即插即用模块。原文
11:06arXiv cs.AI@Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal, Michael Jang, Michael Poli, Juan Carlos Niebles, Justin Johnson, Jiajun Wu, Li Fei-Fei精选72°斯坦福大学发布GPIC(Giant Permissive Image Corpus),一个包含约28万亿像素、1亿训练样本的开放许可图像数据集。所有图像均采用宽松许可,可自由用于研究和商业用途,并经过安全过滤和去重处理。数据集托管在Hugging Face上,附带基准测试协议和像素空间流匹配的参考基线。这为视觉生成模型的可扩展研究提供了稳定、大规模且合规的数据基础。论文视觉生成数据集开放许可图像生成斯坦福推荐理由:做视觉生成模型训练的研究者终于有了一个大规模、开放许可、可直接商用的数据集,不用再为版权和合规问题头疼。建议做图像生成、扩散模型或流匹配的团队直接下载使用。原文
11:45arXiv cs.AI@Wei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Ming Li, Jiaqi Wang, Kaicheng Yu精选本文提出通道级向量量化(CVQ),一种全新的图像标记化范式,将传统基于空间分块的标记方式改为对特征图每个通道进行量化。基于CVQ,作者构建了通道级自回归(CAR)模型,采用“下一通道预测”策略,模拟人类艺术家先画轮廓再细化细节的创作流程。实验表明,CVQ在16K+码本大小下实现100%码本利用率,显著提升重建质量;CAR在DPG和GenEval指标上分别达到86.7和0.79,在文本到图像生成任务中表现强劲。这一工作为视觉自回归模型提供了新思路,有望推动图像生成效率与质量的双重提升。论文图像生成向量量化自回归模型文本到图像视觉细节推荐理由:CVQ解决了传统VQ码本利用率低、细节丢失的痛点,做图像生成和视觉自回归研究的开发者值得关注——它让模型像人类一样先画轮廓再细化,生成质量更高。原文
11:44arXiv cs.AI@Shuhong Zheng, Aashish Kumar Misraa, Yu-Teng Li, Yu-Jhe Li, Igor Gilitschenski主体驱动图像生成旨在根据文本指令生成保留给定主体身份的新图像。现有方法通常分别编码文本和参考图像,限制了跨模态推理能力并导致复制粘贴伪影。本文提出了一种新框架,通过将扩散模型与多模态大语言模型(MLLM)结合,并引入基于VAE的身份条件,实现了文本指令与身份保留的平衡。其中,双层级聚合(DLA)模块用于融合MLLM的多层特征,多阶段去噪策略在推理时逐步平衡语义信息与细节身份。实验表明,该方法在主体驱动图像生成中优于现有方法,有效缓解了复制粘贴问题,并更符合人类偏好。论文多模态大语言模型主体驱动生成扩散模型身份保留图像生成推荐理由:做图像生成或AI绘画的开发者,这篇论文解决了主体身份保留与文本指令跟随的长期矛盾,提出的DLA模块和多阶段去噪策略可以直接参考,值得点开看看具体实现。原文
11:43arXiv cs.LG(学术论文)STARFlow2提出了一种基于自回归归一化流(TarFlow)的统一多模态生成框架,用于处理交错的文本-图像序列。它通过在Pretzel架构中垂直交错预训练VLM流和TarFlow流,并采用深度-浅层流设计和统一的FAE潜空间,实现了文本和视觉输出的缓存友好型生成。实验表明,STARFlow2在图像生成和多模态理解基准上表现强劲,证明了自回归流可以替代扩散模型作为统一多模态建模的基础。这项工作解决了因果文本生成和迭代视觉去噪之间的结构不匹配问题,为更自然的统一生成提供了新范式。论文多模态自回归流图像生成统一模型文本-图像推荐理由:STARFlow2展示了自回归归一化流在多模态统一生成中的潜力,为替代基于扩散的图像生成方法提供了新思路,对多模态模型的设计和效率优化有参考价值。原文
11:43arXiv cs.AI(学术论文)本文提出SCOPE框架,将复杂的图像生成要求形式化为语义承诺,通过结构化规范持续追踪这些承诺的状态,并条件式调用检索、推理和修复技能以解决未满足的承诺。研究指出当前模型生成中存在的“概念鸿沟”问题,即承诺在生成生命周期中可能被局部解决但无法作为统一操作单元被追踪。为评估承诺级意图实现,作者引入人类标注基准Gen-Arena和实体级通过率指标EGIP,SCOPE在该基准上达到0.60 EGIP,显著优于所有基线,并在WISE-V(0.907)和MindBench(0.61)上表现优异,证明持续承诺追踪对复杂图像生成有效。论文图像生成语义承诺结构化解耦技能编排评估基准推荐理由:该工作首次系统定义了图像生成中的语义承诺概念及其生命周期断裂问题,并提供了可操作的框架和评估基准。对追求高可控性图像生成的从业者来说,SCOPE展示了结构化规范追踪如何提升复杂交互场景下的生成质量。原文
11:42arXiv cs.AI(学术论文)精选80°Flow-OPD提出首个将在线策略蒸馏(OPD)集成到Flow Matching模型中的统一后训练框架,有效解决了多任务对齐中的奖励稀疏和梯度干扰问题。该框架采用两阶段对齐策略:先通过单奖励GRPO微调培养领域专用教师模型,再通过Flow冷启动、在线策略采样、任务路由标注和密集轨迹监督将异构专业知识整合到单个学生模型中。研究者还引入了流形锚点正则化(MAR),利用任务无关教师提供全数据监督,避免RL驱动对齐中常见的美学退化。在Stable Diffusion 3.5 Medium上的实验显示,GenEval分数从63提升至92,OCR准确率从59%提升至94%,整体提升约10个百分点,且保持图像保真度和人类偏好对齐,并出现“超越教师”效应。该工作为构建通用文本到图像模型的可扩展对齐范式奠定了基础。论文图像生成Flow Matching在线策略蒸馏多任务对齐Stable Diffusion 3.5推荐理由:该工作针对现有多任务对齐中指标相互制约和奖励欺骗的痛点,将LLM领域成熟的OPD方法成功迁移至图像生成领域,并通过冷启动、任务路由和正则化创新提升了效果。实验在关键指标上大幅领先现有方法,对业界构建高性能通用文生图模型具有直接参考价值。原文