全部 AI 动态 · AI 热点

6月30日

10:05

arXiv cs.LG@Chen Wang, Peiran Yun, Pan Xie, Ke Deng

现有扩散模型和连续流生成模型的确定性采样可视为求解学习到的ODE动力学，但准确离散化通常需要多步。论文指出轨迹匹配范式存在理论局限：两个学生模型可达到相同轨迹匹配损失却诱导不同端点边际分布，影响生成质量。为克服这一局限，提出边际对齐正则化器，通过追踪学生模型ODE沿线的对数密度变化并利用冻结教师模型评分来惩罚学生与教师边际分布的差异，无需辅助网络或对抗优化。该框架统一适用于原始再流和分段再流等再流族，并证明局部边际对齐通过 telescoping 总变差界控制最终时刻分布差异。在基准骨干网络上的实验验证了该方法在少步生成中的有效性。

论文 Reflow 扩散模型蒸馏边际对齐生成模型

推荐理由：这篇论文发现了再流蒸馏的隐藏问题——轨迹匹配可能不够，还提出了一个简单有效的边际对齐正则化，不用额外网络就能提升少步生成质量，值得做扩散加速的人看看。

原文

6月25日

09:33

arXiv cs.AI@Octavia-Andreea Ciora, Julian Welzel, Dennis Frauen, Maresa Schröder, Marie Brockschmidt, Harry Amad, Thomas Callender, Mihaela van der Schaar, Stefan Feuerriegel

OncoSynth是一种因果感知的生成式机器学习框架，采用扩散序列方法模拟协变量对治疗分配的影响以及治疗对生存的影响。在大规模肺癌（N=37,128）和乳腺癌（N=17,046）队列上评估，OncoSynth生成的合成患者队列能保留真实世界的患者、治疗和结局分布。与现有方法相比，OncoSynth将群体水平治疗效应估计误差降低最多66%，患者水平误差降低最多58%。该方法支持在数据共享受限场景下为精准肿瘤学提供可靠证据。

论文 OncoSynth 肿瘤学合成数据治疗效应估计扩散模型

推荐理由：这篇论文推出了OncoSynth，能用合成数据准确估计肿瘤治疗效果，比现有方法误差降低一半以上，适合做医疗AI的朋友了解。

原文

09:30

arXiv cs.AI@Linchun Wu, Qin Zou, Jiwen Lu, Qingquan Li

现有3D点云异常检测面临弱缺陷（如划痕）重建难，偏差仅10^{-3}，且背景非缺陷区易产生误报。PCDiff框架在生成阶段嵌入实例级多模态注意力，利用纹理梯度、图像块、文本和掩模条件生成高质量弱缺陷异常样本。检测阶段采用联合局部-全局重建算法，同时恢复局部异常和保持全局几何一致性。实验表明PCDiff在异常生成保真度和重建质量上显著超越现有方法。

论文 PCDiff 点云扩散 3D异常检测实例级异常检测扩散模型

推荐理由：PCDiff新框架搞定3D点云弱缺陷检测，生成异常样本更逼真，重建更准，减少误报。

原文

6月24日

12:14

arXiv cs.AI@Haorui Ji, Weizhe Liu, Hongdong Li, Hengkai Guo

FLUX3D 提出了一种从单张图像生成高保真 3D 高斯泼溅（3DGS）的新方法。它通过设计 Diffusion-Aligned Structured Latents (DA-SLAT) 改进稀疏体素表示，并用 Sparse-structure Multimodal Diffusion Transformer (SMDiT) 和 Modal-Aware Rotary Positional Embedding (MARoPE) 解决二维图像令牌与三维体素潜在的对齐问题。在多个基准测试中，FLUX3D 在外观保真度上显著优于现有最先进方法，生成的 3DGS 资产质量更高。

AI模型 FLUX3D 3D生成高斯泼溅扩散模型稀疏表示

推荐理由：想从单张图生成高质量3D模型？FLUX3D用扩散对齐稀疏表示解决了细节丢失问题，效果比现有方法好一截，值得搞3D生成的看看。

原文

6月23日

13:22

arXiv cs.LG@Changxiao Cai, Yuchen Jiao, Gen Li

该论文证明扩散模型在低维数据结构下自适应采样的鲁棒性，对于宽泛的更新系数，仅需O(k/ε)步迭代即可生成TV距离ε准确的样本，且与数据环境维度无关。该结果显著扩展了已知具有低维适应性的扩散采样器类别，并适用于多种常用实践方法。研究为扩散采样器在不同系数选择下处理结构化高维数据时的经验有效性提供了理论支撑。

论文扩散模型采样理论低维结构收敛分析

推荐理由：这篇论文告诉你：扩散模型采样快慢不挑超参数，只需O(k/ε)步就能出高质量样本，环境维度再高也不怕。

原文

10:41

arXiv cs.LG@Lei Li, Yuexiao Dong

研究者提出用f-散度诱导的非线性变换替换扩散模型的标准MSE去噪损失，在CIFAR-10数据集30%污染条件下，负指数散度(NED)将FID从93.0（KL散度）降至77.5。该方法基于局部散度构造，利用DDPM高斯反向核结构将每步条件f-散度简化为去噪误差的一维函数。Hellinger散度产生显式指数权重，连接至稳健M估计框架。实验显示NED优于Huber损失和截断MSE等常见鲁棒损失。

论文扩散模型 f-散度 CIFAR-10 FID 稳健训练

推荐理由：这篇论文改进了扩散模型的抗污染能力，用f-散度加权去噪在CIFAR-10上30%污染时FID从93降到77，比常用鲁棒损失好用。

原文

10:38

arXiv cs.LG@Pengfei Li, Mohammad Khalil

Fed-CausalDiff是一种联邦因果扩散框架，专门用于“do-simulation”和政策评估。它将潜在状态演化分解为全局因果评分函数和局部混淆评分函数，实现解耦同步（DSS），客户端只聚合共享因果机制而保留本地特定混淆。在四个数据集上的实验显示，Fed-CausalDiff在ATE和政策价值估计精度上优于传统方法，并在通信成本与推理保真度之间取得更好平衡。

论文 Fed-CausalDiff 联邦学习因果推断扩散模型

推荐理由：这篇论文提出Fed-CausalDiff，让联邦学习不仅能拟合历史数据，还能做因果干预模拟。它在四个数据集上比常规方法更准，而且通信开销可控，适合分布式医疗或金融场景。

原文

6月19日

11:09

arXiv cs.AI@Rostislav Makarov, Timo Gerkmann

该研究提出一种将传统语音分类器改造为扩散生成主干的方法。从冻结的噪声条件分类器（在log-Mel频谱上）开始，附加一个轻量子网络来复用中间分类器表示，仅训练该子网络，使用去噪得分匹配目标。这种方法实现了单主干模型的条件语音生成，在保持语音质量的同时减少了内存占用和计算成本。

论文语音分类器扩散模型条件生成单主干模型语音合成

推荐理由：这篇论文教你用一个现成的语音分类器直接生成语音，省掉单独训练扩散模型，更轻量高效。

原文

6月18日

09:26

arXiv: DeepSeek@Ruiqi Lai, Dakai An, Wei Gao, Ju Huang, Siran Yang, Jiamang Wang, Lin Qu, Dmitrii Ustiugov, Wei Wang

精选

DiT强化学习后训练需要数千块高端GPU，成本极高。Spotlight系统利用Spot GPU（价格低69-77%）和种子探索技术，将训练速度提升4倍。该系统通过带子集探索规划器最大化奖励方差，弹性序列并行在预emption时毫秒级恢复，并采用拉取式调度平衡负载。在Qwen-Image后训练中，Spotlight达到相同验证分数的成本降低1.4-6.4倍，在DeepSeek-OCR和Geneval数据集上512×512和1280×1280分辨率下图像质量更优。

论文 Spotlight DiT Qwen-Image 强化学习扩散模型

推荐理由：Spotlight系统用便宜的Spot GPU做DiT强化学习后训练，成本降低1.4-6.4倍，训练快4倍，适合预算有限的团队。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:28

arXiv cs.LG@Abbas Mammadov, Ozgur Kara, Kaan Oktay, Iskander Azangulov, Adil Kaan Akan, Hyungjin Chung, James Matthew Rehg, Yee Whye Teh

精选72°

本文提出 Exact Posterior Score (EPS) 方法，针对线性高斯逆问题推导出后验分数的闭式解。该方法在一般高斯插值下，将后验采样转化为特定算子依赖的平移点下的各向异性噪声去噪问题。EPS 可从头训练或从预训练去噪器微调，推理时使用与基础模型相同的采样器，无需似然梯度或投影。在 FFHQ 和 ImageNet 上的五个线性逆问题中，EPS 在保真度、感知和分布指标上优于无训练和基于训练的方法，且去噪器评估次数比基于梯度的后验采样器少约一个数量级。

论文 EPS 线性逆问题后验分数估计扩散模型 FFHQ

推荐理由：这篇论文提出了 EPS 方法，能更高效准确地求解线性逆问题，在多个基准上表现优异，且计算开销低。

原文

6月15日

11:11

arXiv cs.LG@Junming Zhang, Siyu Yi, Wei Ju, Zhonghui Gu

PepALD是一种自回归潜在扩散基础模型，用于从头生成大环肽。该模型使用结构化学嵌入表示HELM单体，在化学信息潜在空间中通过上下文条件扩散生成每个残基。它能在自回归生成过程中预测R基团感知的环闭合，并通过获胜者保护的扩散适应偏好优化与亲和力奖励对齐。实验表明PepALD在生成质量和奖励优化上优于代表性肽生成基线。

AI模型 PepALD 大环肽扩散模型药物设计生成模型

推荐理由：PepALD赋能大环肽设计

原文

6月12日

13:46

arXiv cs.LG@Paul Seij, Christian A. Naesseth, Stephan Mandt, Metod Jazbec

扩散模型在3D分子生成中广泛应用，但缺乏对生成分子质量的可靠信号。研究者提出一种后处理方法，基于拉普拉斯近似对预训练分子扩散模型进行逐样本不确定性估计。该方法通过测量生成轨迹中噪声预测的变异性来评估不确定性，实验表明该分数与样本质量负相关。利用该分数过滤生成样本，可在测试时提升模型性能。

论文扩散模型分子生成不确定性估计拉普拉斯近似测试时缩放

推荐理由：做分子生成或药物设计的团队，终于有了一个能判断生成分子质量好坏的信号，建议试试这个后处理方法，能直接提升模型输出质量。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:57

arXiv cs.LG@Alexander Soen, Hisham Husain, Valentin De Bortoli, Arnaud Doucet

该论文提出了一种针对扩散模型的高效推测采样方案，将大语言模型中的块验证技术适配到连续扩散空间，显著提高了草稿的接受率。现有方法在连续空间中采样残差分布时计算效率低，而新方案通过块验证实现了更高效的并行验证。作者还形式化了 Free Drafter——一种无需训练的启发式自推测草稿生成器。实验表明，Free Drafter 在现有推测方法基础上实现了最高 6.3% 的加速，且几乎无额外开销。这项工作为扩散模型的推理加速提供了新思路，尤其适用于需要快速生成高质量样本的场景。

论文扩散模型推测解码推理加速块验证 Free Drafter

推荐理由：扩散模型推理加速有了新解法——块验证让草稿接受率更高，做生成式 AI 推理优化的团队可以直接参考 Free Drafter 的无训练方案，实测有 6.3% 的提速收益。

原文

09:43

arXiv cs.LG@Amir Mann, Gal Michael Harari, Merav Keidar, Or Litany

VideoMDM 是一种基于扩散的框架，能够仅从单目视频中提取的精确2D姿态直接训练3D人体运动先验，无需任何3D真实数据。它利用预训练的2D转3D提升器提供近似3D姿态序列作为噪声教师，在3D空间扩散和去噪后，通过重投影到2D并与精确关键点比较进行监督。论文证明在温和假设下，深度加权的2D重投影损失在期望上等价于直接3D监督，并适配了速度一致性和过参数化表示对齐等标准3D运动正则化器。在HumanML3D数据集上，VideoMDM几乎缩小了与完全3D监督方法的差距（FID 0.88 vs 0.54），在真实视频数据集Fit3D和NBA上生成的运动更受人类偏好。

论文 3D人体运动生成扩散模型 2D监督视频理解 HumanML3D

推荐理由：做3D人体运动生成的团队终于有了摆脱昂贵3D标注的可行方案——VideoMDM用2D视频就能训练出接近3D监督水平的模型，做动画、运动分析或虚拟人开发的可以直接试。

原文

09:41

arXiv cs.LG@Jagriti Singh, Shekhar Verma, Muneendra Ojha

标准分类器引导的扩散模型倾向于生成高密度类均值附近的样本，导致对尾部罕见样本的覆盖不足。现有方法通过训练额外的低密度分类器来解决，但增加了计算成本。本文提出一种纯采样阶段的密度感知方法，无需额外训练，通过修改反向扩散动力学，利用分类器梯度将轨迹引向低置信区域，同时引导采样接近真实数据流形。在ImageNet 64x64分辨率下，该方法一致提升了ADM模型的召回率，同时保持可比的FID分数；在256x256分辨率下，视觉结果显示了不同引导组合的效果。这项工作为生成模型的长尾覆盖问题提供了一种轻量级解决方案。

论文扩散模型分类器引导低密度区域探索长尾覆盖 ImageNet

推荐理由：做生成模型长尾覆盖或罕见样本生成的团队，无需额外训练就能提升模型对低密度区域的探索能力，建议直接参考其采样策略。

原文

09:11

arXiv cs.AI@Zian Yang, Zixin Wang

少样本字体生成需要同时保证全局结构完整性和局部风格细节。现有方法要么依赖全局内容-风格建模（鲁棒但解耦不完美），要么强调局部组件建模（捕捉细节但依赖局部先验和参考覆盖）。SmartFont 提出通过多级条件分配来组织互补但有偏的全局和局部条件，结合扩散模型与弱监督局部校正专家，实现全局-局部平衡。实验表明，该方法在字形质量和局部细节保真度上优于现有方法。

论文少样本字体生成扩散模型条件分配弱监督学习 SmartFont

推荐理由：字体设计团队和AI生成研究者可以关注这个方案——它解决了少样本字体生成中全局与局部细节难以兼顾的痛点，直接提升字形质量和风格一致性。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

12:33

arXiv cs.AI@Yihao Zhao, Xuan Han, Bin He, Mingyu You

精选

针对商品展示图像生成中，前景条件外绘（FCO）方法常出现伪影（即合成背景中与前景实例语义相同的区域）的问题，本文提出CCE-Diffusion框架。其核心是CCE-Module，通过定制概念嵌入来弥合通用名词语义与特定视觉实例之间的差距，并引入实例感知损失和语义保持提示模板来优化。实验表明，该方法显著减少了伪影，提升了图像质量。CCE-Module作为即插即用组件，可集成到多种FCO方法中，为电商等场景提供低成本高质量背景生成方案。

论文图像生成外绘概念嵌入扩散模型电商应用

推荐理由：电商和广告设计团队终于有了解决外绘伪影的实用方案——CCE-Diffusion能直接减少背景中与产品重复的语义区域，让产品更突出。做图像生成或商品展示的开发者可以试试集成这个即插即用模块。

原文

6月9日

13:08

arXiv cs.AI@Danqi Zhuang, Jisui Huang, Xiaoyue Xi, Andrew Kiggins, Xiaojie Wang, Ke Chen, Yue Wu

标准扩散模型通常使用单一高斯分布作为终端参考分布，这难以捕捉数据在低维流形上的结构。PTL-Diffusion 提出一种新的前向噪声过程，其终端分布不再是单一不变分布，而是一族周期性的高斯分布，从而将相位结构直接嵌入前向动力学。该方法推导了封闭形式的前向边缘分布、周期高斯终端族和显式高斯反向后验，并引入不变平均正则化项来耦合相位条件反向动力学。在环面、圆柱点云和 Olivetti 人脸数据集上的实验表明，PTL-Diffusion 在流形级别的分布匹配上优于标准 DDPM，减少了相位条件误差、特征空间协方差误差和最近邻流形距离。这项工作为结构化终端参考分布提供了有前景的方向。

论文扩散模型流形学习周期终端分布生成模型 PTL-Diffusion

推荐理由：做生成模型的研究者会发现，PTL-Diffusion 用周期终端分布解决了流形结构丢失的痛点，在低维流形数据上效果明显，值得在点云或人脸生成任务上试试。

原文

11:49

arXiv cs.AI@Mateo Diaz-Bone, Daniel Caraballo, Florian Scheidegger, Thomas Frick, Mattia Rigotti, Andrea Bartezzaghi, Roy Assaf, Niccolo Avogaro, Yagmur G. Cinar, Brown Ebouky, Filip M. Janicki, Piotr S. Kluska, Cezary Skura, Cristiano Malossi

精选

现有异常检测方法在 MVTec 等标准数据集上表现完美，但在真实场景中因物体尺度、视角、背景、光照等变化而失效。该研究提出三项创新：视觉提示管道通过前景-背景掩码隔离物体；在师生模型中解冻教师以提升领域适应性；利用扩散生成合成图像增强数据。基于 Masked Multiscale Reconstruction (MMR) 骨干，该方法在挑战性数据集 AeBAD 上比之前最优方法提升 3.5 个百分点。

论文异常检测视觉提示双教师监督扩散模型 AeBAD

推荐理由：做工业视觉异常检测的团队终于有了应对真实场景变化的方案——视觉提示和双教师监督直接解决了传统方法对背景、视角敏感的痛点，值得在产线上试跑。

原文

6月4日

11:05

arXiv cs.LG@Lixing Zhang, Yidong Ouyang, Weifu Li, Shixiang Zhu, Guang Cheng, Liyan Xie

传统缺失值填补方法假设所有缺失都是随机且应被恢复，但现实中缺失可能来自两种不同来源：有意义缺失（数据本身不存在）和观测缺失（应被填补）。研究者提出Diff-Joint，一个基于扩散的框架，联合建模表格数据与潜在缺失掩码，通过条件采样和不确定性感知聚合迭代优化填补值与缺失标签。实验表明，该方法能有效识别有意义缺失，同时保持竞争性填补精度并提升下游任务性能。

论文缺失值填补扩散模型不确定性感知表格数据 Diff-Joint

推荐理由：处理表格数据的团队终于有了区分“不该填”和“该填”缺失值的工具——Diff-Joint解决了传统填补方法盲目恢复所有缺失的痛点，做数据清洗或医疗、金融等缺失值有语义含义的开发者可以直接试。

原文

6月3日

10:36

arXiv cs.LG@Mengdi Chu, Jiaxin Yang, Angus G. Forbes, Nathan Debardeleben, Earl Lawrence, Ayan Biswas, Han-Wei Shen

科学数据分析中，现有机器学习方法多提供确定性前向预测，忽略多种可能结果且不支持反向推理。该研究提出 DiffUNet^2，一种条件扩散模型，支持时间维度上的双向任意生成，捕捉系统演化的概率分布。结合交互式可视化系统，科学家可探索分支时间线、编辑状态并导航概率空间，主动验证假设。在5个跨学科数据集上验证了预测准确性和概率集成质量。该框架将生成模型转化为假设驱动的科学分析工具。

论文扩散模型科学数据时序建模交互式可视化概率生成

推荐理由：做科学数据分析和时序建模的团队，终于有了能双向推理、探索多种可能性的工具，比传统确定性预测灵活太多，建议做地球科学或生物物理的开发者点开看看。

原文

6月2日

12:19

arXiv: OpenAI@Hikmet Simsir, Ozgur S. Oguz

精选

论文提出 Lagrangian Perturbation Diffusion Steering (LP-DS)，一种轻量级方法，通过优化冻结生成式策略的噪声空间扰动来提升性能，无需更新大型动作解码器。LP-DS 使用拉格朗日信任域目标，在提升下游价值的同时约束与潜在先验的偏差。在 RoboMimic、OpenAI Gym 和 Adroit 等基准测试中，LP-DS 在样本效率、成功率和回报上均有提升，回报比先前基线提高最多 25%。该方法还适用于流匹配骨干、大型视觉-语言-动作模型，并在真实 Franka 机器人上验证了有效性。

论文扩散模型强化学习机器人操控策略微调信任域优化

推荐理由：做机器人操控或强化学习的团队，终于有了一个不更新大模型也能微调扩散策略的轻量方案——LP-DS 在保持动作多样性的同时提升回报，建议试试看能否解决你的分布偏移问题。

原文

11:11

arXiv cs.AI@Jingyun Liang, Min Wei, Shikai Li, Yizeng Han, Hangjie Yuan, Lei Sun, Weihua Chen, Fan Wang

该研究提出一种无需渲染的框架，通过将3D人体网格压缩为token，直接输入DiT架构的视频扩散模型，实现精确的人体运动控制。相比依赖2D渲染引导的现有方法，该方法避免了视角依赖伪影和轨迹-姿态不匹配问题。实验表明，该框架在人体运动控制基准上表现优异，证明视频扩散模型通过网格token化能更好地理解3D结构。这项工作为3D感知视频生成提供了新思路。

论文视频生成 3D人体运动控制网格token化扩散模型 DiT架构

推荐理由：做视频生成或3D人体动画的团队终于有了不依赖渲染的精准控制方案——直接压缩3D网格token，避免2D引导的伪影问题，建议做运动控制或虚拟人应用的开发者点开看看。

原文

6月1日

10:36

arXiv cs.AI@Qing Wang, Jacob Devasier, Chengkai Li

本文首次系统研究了掩码扩散语言模型（MDLM）在图到文本生成中的解码轨迹，发现MDLM会优先解码实体，然后是关系词和功能词，最后才是结构词，这与自回归模型的线性生成方式不同。研究还发现监督微调（SFT）会破坏这一策略，过早固定结构词导致输出长度固定，引发信息遗漏或幻觉。为此，作者提出了一种无需训练的推理时修改方法——lambda缩放结构解码，将BLEU-4提升9.4分。最后，他们提出了Graph-LLaDA，将图Transformer编码器集成到LLaDA的解码过程中，显式利用关系图结构。跨数据集评估表明，基于LLM和MDLM的方法泛化能力显著优于传统基线。

论文扩散模型图到文本生成解码轨迹 Graph-LLaDA SFT

推荐理由：这篇论文揭示了扩散模型在图到文本任务中的独特解码机制，做结构化文本生成或知识图谱相关工作的开发者值得关注，尤其是SFT反而有害的发现可能改变你的微调策略。

原文

10:31

arXiv cs.AI@Ruotong Liao, Guowen Huang, Qing Cheng, Guangyao Zhai, Lei Zhang, Xun Xiao, Thomas Seidl, Daniel Cremers, Volker Tresp

TunerDiT 提出了一种无需额外训练的多事件视频生成方法，通过分析扩散变换器（DiT）的去噪轨迹，发现文本条件从全局布局到细节的转变点。该方法包含两个关键组件：事件分区掩码（强制事件边界并允许过渡带）和跨事件提示融合（注入相邻事件语义进行后期细化）。在自建的多事件基准测试 Meve 上，TunerDiT 在 8 个指标上达到最优，并能在视频一致性和事件分离之间进行可调权衡。随着事件数量增加，文本对齐性能提升，显示出扩展潜力。

论文扩散模型视频生成多事件生成 DiT 无需训练

推荐理由：做视频生成的研究者或开发者，如果被长视频多事件生成的一致性困扰，TunerDiT 的零训练方案直接可用，值得关注其事件边界控制与提示融合的设计。

原文

10:27

arXiv cs.LG@Daniel Peñaherrera, Rishal Aggarwal, David Ryan Koes

计算化学中高效采样分子玻尔兹曼分布是一个长期挑战。传统方法计算成本高，而基于扩散模型的退火采样方法需要计算分数场的散度来估计重要性权重，对于大分子系统不可行。本文提出可扩展推理时退火（SITA），通过能量模型提供快速替代似然，重新训练流模型以逐步在更低温度下生成样本。在丙氨酸二肽和三肽上取得最先进性能，且避免了昂贵的散度项。代码已开源。

论文分子模拟扩散模型退火采样能量模型开源/仓库

推荐理由：SITA 解决了大分子系统退火采样中散度计算不可行的痛点，做计算化学和分子模拟的团队可以直接用开源代码复现，值得关注。

原文

10:08

arXiv cs.LG@Alireza Kheirandish, Jihoon Hong, Sara Fridovich-Keil

研究人员提出了一种基于KL散度的分布外检测指标KLIP，用于逆问题中检测图像是否来自训练分布。该方法无需校准数据或了解偏移分布，能检测整张图像或图像局部区域的分布偏移。实验表明，KLIP能检测出细微但语义重要的偏移，如健康肝脏CT与肿瘤CT的差异，且适用于多种扩散模型、数据集和逆问题。代码已开源。

论文扩散模型分布外检测逆问题医学影像 KL散度

推荐理由：做医学影像或逆问题研究的团队，可以用KLIP无监督地检测异常区域，无需额外标注数据，值得试试。

原文

5月29日

12:12

arXiv cs.LG@Benjamin A. Burns, Sara Fridovich-Keil

本文从有限样本视角系统分析了扩散模型在后验采样中的失败机制。研究发现，现有方法在中间时间步对似然函数进行近似时，会系统性地高估或低估后验分布的扩散程度，导致对早期停止时间敏感、后验模式权重不准确以及产生幻觉（包括先验中不存在但后验中出现的模式，以及似然中不受先验支持的模式）。这些错误无需非线性测量模型或多模态后验，仅由多模态先验和中间采样时的不准确后验扩散即可引发。作者提出的有限样本后验采样方法可兼容任何似然近似和正向模型，作为诊断工具评估现有及未来后验采样器的准确性和失败模式。

论文扩散模型后验采样有限样本分析图像逆问题失败模式诊断

推荐理由：做图像逆问题或扩散模型后验采样的研究者，这篇论文直接戳中了现有方法“好用但说不清为什么失败”的痛点——有限样本视角给出了可落地的诊断工具，建议点开看看你的采样器是否也在犯这些错误。

原文

5月28日

12:02

arXiv cs.LG@Jiawei Zhang, Ziyuan Liu, Leon Yan, Zhenyu Xiao, Yuantao Gu

该论文提出了一种名为MAP-RPS的阶段式框架，用于在扩散模型的零样本逆问题求解中实现失真-感知（D-P）权衡的灵活遍历。该方法先通过MAP估计阶段近似MMSE解，提供低失真初始化，再通过重噪后验采样阶段逐步提升感知质量。理论分析验证了设计的有效性，并扩展至潜在空间（LMAP-RPS），利用大规模预训练潜在扩散骨干。实验表明，该方法在多种任务上实现了更有效的D-P遍历，并作为高效求解器表现出色。

论文扩散模型零样本逆问题失真-感知权衡 MAP-RPS 潜在空间

推荐理由：对于从事图像恢复、超分辨率等逆问题的研究者，MAP-RPS提供了一种无需重新训练即可在推理时灵活调节失真与感知质量的方法，值得尝试。

原文

5月27日

10:53

arXiv cs.LG@Sridhar Mahadevan

精选

本文提出 Kan Extension Transformers (KETs)，一个基于范畴论的统一框架，将多种 Transformer 变体（标准注意力、几何 Transformer、扩散模型）视为加权结构化扩展算子的特例。KET 将注意力推广到高阶单纯形邻域，并揭示了与扩散式补全的桥梁。当扩展算子作用于分离的预测载体而非教师强制隐状态时，形成一种有效的自条件化机制，在不泄露未来 token 的情况下暴露非因果结构。在 Penn Treebank、WikiText-2 和 WikiText-103 上的 12 种 Transformer 变体实验中，严格因果设置下二次 KET 在 WikiText-2 和 WikiText-103 上表现最强；但最大收益来自 predict-detach 机制而非邻域族变化。

论文 Transformer 范畴论自条件化扩散模型注意力机制

推荐理由：这篇论文用范畴论统一了注意力、扩散和自条件化，做 Transformer 架构研究的开发者会看到新的理论视角；predict-detach 机制带来的收益比改邻域更大，值得关注。

原文

10:49

arXiv cs.LG@Nithesh Chandher Karthikeyan, Jonas Unger, Gabriel Eilertsen

精选

本文提出一种基于预训练自监督模型表示的条件扩散模型，用于可控图像生成。传统方法依赖文本提示或语义图等条件机制，需要大量标注数据。该工作通过自监督表示作为条件，不仅提升了无条件图像生成的质量，还提供了一个可操控的表示空间。研究者通过识别变化方向探索该条件空间，展示了平滑性和解耦性等有前景的特性。这项工作为减少对标注数据的依赖、实现更灵活的图像生成控制提供了新思路。

论文扩散模型可控图像生成自监督学习表示条件解耦控制

推荐理由：做图像生成和编辑的研究者可以关注——自监督表示条件化方法有望减少对标注数据的依赖，且提供更平滑、解耦的控制空间，值得深入探索。

原文

5月26日

12:23

arXiv cs.LG@Ali Rouzbayani, Bidhan Roy, Marcos Villagra, Zhiying Jiang

精选72°

巴黎 2.0 是首个通过去中心化计算预训练的视频生成模型，解决了去中心化训练中时间连贯视频生成的难题。相比相同算力预算下的集中式模型，它在低分辨率文本到视频任务中将 FVD 从 561.04 降至 279.01，提升约 2 倍，同时提高了 CLIP 文本-视频相似度和美学评分。该模型基于巴黎 1.0 的去中心化扩散模型架构，无需单一 GPU 集群即可完成训练。这项工作证明了去中心化训练在视频生成领域的可行性，为降低大规模模型训练门槛提供了新路径。

论文视频生成去中心化训练扩散模型开源/仓库 Paris 2.0

推荐理由：去中心化训练让视频生成模型不再依赖昂贵 GPU 集群，做视频生成或分布式训练的团队可以关注这个开源方案，直接降低算力成本。

原文

11:49

arXiv cs.AI@Zixin Jessie Chen, Zhuo Chen, Archer Wang, Jeff Gore, William T. Freeman, Congyue Deng, Marin Soljačić

精选

SKILD 是一种新型扩散模型，通过利用图像和物理系统的尺度不变性，将图像生成和连续超分辨率统一在一个无条件的框架中。其前向过程从粗到细衰减图像内容并注入匹配频谱的高斯噪声，使尺度成为扩散的显式坐标。训练后的反向过程仅通过改变起始时间步即可同时执行生成和任意倍数的超分辨率，无需任务特定架构、条件分支或无分类器引导。在 CIFAR-10 上达到 FID 2.65 和 Inception Score 9.63，在 ImageNet 上实现 2 倍到 8 倍超分辨率，性能超越条件模型，并能重建关键伊辛模型的相关函数。

论文扩散模型超分辨率尺度不变性无条件生成 SKILD

推荐理由：SKILD 用一个模型同时搞定生成和超分，省去了为不同尺度重复训练的麻烦，做图像生成或物理模拟的团队值得关注，直接省掉条件分支和重训练。

原文

11:44

arXiv cs.AI@Shuhong Zheng, Aashish Kumar Misraa, Yu-Teng Li, Yu-Jhe Li, Igor Gilitschenski

主体驱动图像生成旨在根据文本指令生成保留给定主体身份的新图像。现有方法通常分别编码文本和参考图像，限制了跨模态推理能力并导致复制粘贴伪影。本文提出了一种新框架，通过将扩散模型与多模态大语言模型（MLLM）结合，并引入基于VAE的身份条件，实现了文本指令与身份保留的平衡。其中，双层级聚合（DLA）模块用于融合MLLM的多层特征，多阶段去噪策略在推理时逐步平衡语义信息与细节身份。实验表明，该方法在主体驱动图像生成中优于现有方法，有效缓解了复制粘贴问题，并更符合人类偏好。

论文多模态大语言模型主体驱动生成扩散模型身份保留图像生成

推荐理由：做图像生成或AI绘画的开发者，这篇论文解决了主体身份保留与文本指令跟随的长期矛盾，提出的DLA模块和多阶段去噪策略可以直接参考，值得点开看看具体实现。

原文

5月25日

11:16

arXiv cs.AI@Aneesh Komanduri, Xintao Wu

精选

因果生成建模对于开发可靠、透明的AI系统至关重要，但现有方法通常需要在训练时集成因果约束，缺乏利用预训练基础模型零样本推理能力的统一框架。本文提出FM-CGM，一个模块化框架，通过概念提取器、概念操纵器和反事实生成器三个核心组件，实现端到端的视觉因果推理。该框架利用大型推理模型进行因果推断，结合文本到图像扩散模型进行生成，支持零样本因果发现、干预和反事实生成。同时，作者开发了因果语义引导（CSG）机制，确保语义干预传播到后代概念并保留不变区域。实验表明，该方法能识别合理的因果结构，并生成忠实的反事实图像。

论文因果生成建模基础模型零样本推理反事实生成扩散模型

推荐理由：因果推理是AI可靠性的关键，FM-CGM让零样本因果生成成为可能，做视觉生成或因果推理的研究者可以直接参考其框架设计。

原文

5月22日

11:35

arXiv cs.LG@Javad Parsa, Enis Simsar, Amir Joudaki, Thomas Hofmann, André M. H. Teixeira

精选

SeqLoRA 是一种针对文本到图像扩散模型的高效微调方法，解决了多概念组合生成中的表示干扰问题。现有模块化方法要么依赖昂贵的后处理融合，要么冻结适配子空间，限制了表达力和概念保真度。SeqLoRA 通过双层优化联合优化两个 LoRA 因子，并建立强收敛保证，从理论上证明学习 LoRA 基比固定基方法更有效减少干扰。实验显示，SeqLoRA 在多达 101 个概念上提升了身份保持和可扩展性，无需昂贵融合，减少了属性干扰。

论文 LoRA 多概念生成扩散模型持续学习双层优化

推荐理由：做多概念图像生成的团队终于有了一个兼顾保真度和可扩展性的方案——SeqLoRA 用双层优化解决了 LoRA 的干扰问题，支持上百个概念组合，做个性化扩散模型的开发者值得一试。

原文

11:30

arXiv cs.LG@Samson Gourevitch, Yazid Janati, Dario Shariatian, Umut Simsekli, Eric Moulines, Eric P. Xing, Alain Durmus

精选

本文重新审视了均匀扩散模型（UDM）的训练与推理。研究发现，UDM 的标准参数化并未优化去噪后验，而是优化了一种留一法后验，即预测每个干净 token 时不使用其自身的噪声观测。作者推导了去噪器、留一法后验与分数之间的精确转换，从而分离了参数化与训练目标。基于留一法预测器，他们提出了无需额外训练即可改进推理的预测-校正采样器和温度采样方法。此外，还引入了一种吸收态重构，将 UDM 分解为类似掩码扩散的采样操作，简化了去噪后验。实验表明，留一法参数化持续提升 UDM 生成质量，吸收态构造则匹配或超越掩码扩散，暗示掩码与均匀扩散之间的经验差距更多源于参数化和采样设计，而非边际分布本身。

论文扩散模型 Uniform Diffusion 留一法去噪参数化改进吸收态重构

推荐理由：这篇论文揭示了均匀扩散模型长期被忽视的参数化问题，做离散扩散模型研究的开发者可以直接用留一法改进推理，无需重新训练。看完会对掩码 vs 均匀扩散的差距有全新理解。

原文

11:05

arXiv cs.AI@Stanislav R. Kirpichenko, Andrei V. Konstantinov, Lev V. Utkin

精选

生存分析旨在从含删失数据中估计事件时间分布，但现有方法常对风险函数施加结构假设或离散化时间轴，限制了灵活性并引入近似误差。本文提出生存扩散概率模型（SDPM），一种基于去噪扩散模型的连续时间生存分析方法。SDPM 直接建模生存结果的条件分布，利用条件独立删失假设，通过生成样本结合 Kaplan-Meier 估计器得到生存函数，无需参数假设或时间离散化。在十个真实数据集上，SDPM 在 C-index、时间依赖 AUC 和 Brier 评分上达到与树模型、提升模型和神经网络模型相当的预测性能。合成数据实验表明，SDPM 能更准确地恢复底层连续生存分布的形状，消融研究验证了目标空间变换对事件率校准和预测区分度的提升。

论文生存分析扩散模型连续时间生成模型 SDPM

推荐理由：生存分析是医学、可靠性工程等领域的核心问题，SDPM 用扩散模型绕过了传统方法的参数假设和离散化限制，做生存预测的团队可以直接用公开代码复现，值得关注。

原文

5月21日

11:11

arXiv cs.AI@Riley Zilka, Sergey Khlynovskiy, Allie Wang, Martin Jagersand

精选

HITL-D 是一种结合人类操作与扩散模型的新型共享控制框架，专门针对多步骤、插入和精细操作任务。它通过场景点云和末端执行器笛卡尔位置，自主更新末端执行器方向，减少操纵杆控制轴数，降低操作者认知负荷。12 人用户研究表明，相比传统遥操作，HITL-D 将任务完成时间平均缩短 40%，感知工作负荷降低 37%，并在独立性、直观性和信心等主观评分上显著提升。该工作首次将扩散策略引入人机共享控制，为复杂操作任务的人机协作提供了新范式。

论文扩散模型人机协同共享控制遥操作机器人操作

推荐理由：做机器人遥操作或人机协作研究的团队，HITL-D 用扩散模型把操作者的认知负担砍掉近四成，值得在精细操作场景里试试。

原文

10:57

arXiv cs.AI@Jesse Bettencourt, Xindi Wu, Matan Atzmon, James Lucas, Jonathan Lorraine

精选

预训练扩散模型常作为冻结教师模型用于下游任务（如文本到 3D、单步蒸馏、数据归因），但这些任务依赖蒙特卡洛期望估计梯度，方差大且计算成本高。本文提出 CARV 框架，通过分层蒙特卡洛估计器，在扩散噪声重采样上摊销昂贵上游计算，结合时间步重要性采样和分层逆 CDF 构造，有效降低方差。在文本到 3D 蒸馏和归因实验中，CARV 实现 2-3 倍有效计算加速，且不改变目标函数；在单步蒸馏中方差降低一个数量级，但下游 FID 无改善，表明此时方差已非瓶颈。该工作为扩散模型下游应用提供了高效方差缩减方案。

论文扩散模型方差缩减蒙特卡洛估计文本到 3D 蒸馏

推荐理由：做扩散模型下游应用（如文本到 3D、蒸馏）的团队，如果被梯度方差和计算成本困扰，CARV 的 2-3 倍加速值得直接尝试。

原文