全部 AI 动态 · AI 热点

6月29日

10:09

arXiv cs.AI@Guanbo Huang, Jingjia Mao, Fanding Huang, Fengkai Liu, Xiangyang Luo, Yaoyuan Liang, Jiasheng Lu, Xiaoe Wang, Pei Liu, Ruiliu Fu, Ruqi Huang, Shao-Lun Huang

流匹配（Flow Matching）存在暴露偏差，现有缓解方法依赖静态约束。本文提出DEFAR框架，包含抗漂移修正（ADR）和频率补偿（FC）两个组件。ADR利用推理时漂移信号学习将偏离状态拉回目标方向，FC基于偏差自反馈权重增强缺失的低频成分。在CIFAR-10、CelebA-64、ImageNet-256/512上，DEFAR优于先前基线，且具有良好的可扩展性与推理鲁棒性。

论文 Flow Matching DEFAR 暴露偏差自修正图像生成

推荐理由：这篇论文让模型靠偏差自己修正偏差，DEFAR在CIFAR和ImageNet上都能超过之前的方案，还更稳。

原文

6月26日

10:47

arXiv cs.LG@Wei Zhou, Xiongwei Zhu, Zelin Xu, Bo Dong, Lixue Gong, Yongyuan Liang, Meng Chu, Leigang Qu, Lingdong Kong, Wei Liu, Tat-Seng Chua

针对文本到图像（T2I）、局部编辑和全局编辑等能力难以统一且相互冲突的问题，论文提出DanceOPD框架。该框架基于流匹配模型，采用策略生成场蒸馏，将每个样本路由至对应能力场，并查询低噪声的学生诱导状态，用速度MSE目标训练。在T2I、编辑、真实性场吸收和CFG吸收等实验上，DanceOPD改善了多能力组合效果，增强了目标能力同时保持基准生成质量。

论文 DanceOPD 流匹配模型图像生成蒸馏多能力

推荐理由：这篇论文用DanceOPD把T2I、局部编辑和全局编辑统一到一个模型里，解决了相互干扰的问题，效果显著提升。

原文

6月23日

13:17

arXiv cs.AI@Sara Dorfman, Maya Vishnevsky, Omer Dahary, Or Patashnik, Daniel Cohen-Or

该论文提出一种名为Semantic Browsing的方法，解决文本到图像模型生成样本多样性不足的问题。传统方法依赖随机噪声产生无意义变化，而Semantic Browsing通过Vision Language Model（VLM）在文本层面施加结构化语义变异。用户可沿可解释的语义轴（如物体属性、场景布局）导航图像集，每个变体对应一个具体可理解的语义决策。实验表明该方法能生成多样且可浏览的设计空间。

论文 Semantic Browsing 文本到图像 Vision Language Model 图像生成多样性

推荐理由：想要生成同一主题下不同设计的图像？这篇论文教你用VLM在文本层面控制多样性，比随机抽噪声靠谱多了。

原文

6月19日

11:15

arXiv cs.AI@Jinghong Lan, Wei Cheng, Yunuo Chen, Ziqi Ye, Peng Xing, Yixiao Fang, Rui Wang, Yufeng Yang, Xuanyang Zhang, Xianfang Zeng, Difan Zou, Gang Yu, Chi Zhang

FreeStyle提出一种基于社区LoRA挖掘的可扩展双参考生成框架，利用社区LoRA作为风格和内容的组合锚点，构建大规模三元组数据（风格参考和内容参考）。采用两阶段课程，包括注意力级富集约束抑制风格参考泄漏，以及频率感知RoPE调制解决位置对应泄漏。引入新基准，包含风格不变内容对齐分数（CAS）和基于VLM的拒绝分数。实验表明，FreeStyle在风格对齐、内容保持和泄漏抑制之间取得强平衡。

AI模型 FreeStyle LoRA 双参考生成图像生成风格迁移

推荐理由：想同时控制图片风格和内容？FreeStyle用社区LoRA搞定双参考生成，还自带防泄漏机制，比以往方法更稳。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日