精选 AI 资讯 · AI 热点

6月26日

18:02

AI Will@FinanceYF5

精选

独立研究者 Alexander Goslin 的论文 InfiniteDiffusion 被 SIGGRAPH 2026 接收。该论文提出两种贡献：InfiniteDiffusion 是面向扩散模型的无限图像生成方法，Terrain Diffusion 是首个基于学习型程序化地形生成器。作者在无经费、无导师、无团队的情况下，仅凭一块 RTX 3090 Ti 完成研究。论文展示了在无限场景生成和程序化地形建模上的突破。

论文 InfiniteDiffusion SIGGRAPH Terrain Diffusion 扩散模型程序化生成

推荐理由：一个人用一块显卡做出 SIGGRAPH 论文，InfiniteDiffusion 让扩散模型无限生成，Terrain Diffusion 是第一个能学的地形生成器，很厉害。

原文

6月18日

09:26

arXiv: DeepSeek@Ruiqi Lai, Dakai An, Wei Gao, Ju Huang, Siran Yang, Jiamang Wang, Lin Qu, Dmitrii Ustiugov, Wei Wang

精选

DiT强化学习后训练需要数千块高端GPU，成本极高。Spotlight系统利用Spot GPU（价格低69-77%）和种子探索技术，将训练速度提升4倍。该系统通过带子集探索规划器最大化奖励方差，弹性序列并行在预emption时毫秒级恢复，并采用拉取式调度平衡负载。在Qwen-Image后训练中，Spotlight达到相同验证分数的成本降低1.4-6.4倍，在DeepSeek-OCR和Geneval数据集上512×512和1280×1280分辨率下图像质量更优。

论文 Spotlight DiT Qwen-Image 强化学习扩散模型

推荐理由：Spotlight系统用便宜的Spot GPU做DiT强化学习后训练，成本降低1.4-6.4倍，训练快4倍，适合预算有限的团队。

原文

6月16日

20:29

AlphaSignal@AlphaSignalAI

精选

MPMWorlds是一个包含95,000个2D仿真视频的基准，覆盖液体、雪、沙子和弹性体。模型观看2.5秒场景后预测后续运动。代码生成方法能保持长期物理稳定性，但无法从帧中读取位置，隐藏坐标后精度骤降。扩散模型可捕获短期几何，但物体随时间消失、运动不真实。混合两种方法的简单门控机制超越单一模型。

论文 MPMWorlds 物理模拟代码生成扩散模型视频理解

推荐理由：这篇论文用MPMWorlds测试了AI看视频写物理代码的能力，发现代码生成稳但缺位置感知，扩散模型短时准但长期漂移，混合模型效果最好。

原文

12:28

arXiv cs.LG@Abbas Mammadov, Ozgur Kara, Kaan Oktay, Iskander Azangulov, Adil Kaan Akan, Hyungjin Chung, James Matthew Rehg, Yee Whye Teh

精选72°

本文提出 Exact Posterior Score (EPS) 方法，针对线性高斯逆问题推导出后验分数的闭式解。该方法在一般高斯插值下，将后验采样转化为特定算子依赖的平移点下的各向异性噪声去噪问题。EPS 可从头训练或从预训练去噪器微调，推理时使用与基础模型相同的采样器，无需似然梯度或投影。在 FFHQ 和 ImageNet 上的五个线性逆问题中，EPS 在保真度、感知和分布指标上优于无训练和基于训练的方法，且去噪器评估次数比基于梯度的后验采样器少约一个数量级。

论文 EPS 线性逆问题后验分数估计扩散模型 FFHQ

推荐理由：这篇论文提出了 EPS 方法，能更高效准确地求解线性逆问题，在多个基准上表现优异，且计算开销低。

原文

6月12日

12:37

Black Forest Labs (FLUX)@bfl_ml

精选

Black Forest Labs 创始人 Andi Blatt 在斯坦福 CS153 课程中，与 Anjney Midha 对谈视觉生成模型的演进路径。他回顾了从 GANs 到扩散模型再到 FLUX 的技术跃迁，强调从不可控到一致、可控视觉输出的关键突破。Blatt 还指出“具备行动能力的视觉系统”是下一代 AI 的重要方向，意味着视觉模型不再只是生成图像，而是能理解并驱动交互。这场分享为理解当前视觉 AI 前沿提供了技术脉络和产业视角。

AI模型视觉生成 FLUX 扩散模型 GANs 斯坦福

推荐理由：Blatt 把视觉生成从 GANs 到 FLUX 的演进脉络讲透了，做图像生成或视觉 AI 的开发者能从中看到技术拐点，值得花 10 分钟听一下。

原文

09:59

rohanpaul_ai@rohanpaul_ai

精选

atomic[.]chat 在单块 H100（FP8）上对比了 DiffusionGemma（扩散文本模型）与 Gemma4 26B A4B（自回归模型）。DiffusionGemma 速度是 Gemma4 的 4 倍，改变了错误分布模式。自回归模型逐 token 生成，速度慢但精度高；扩散模型批量生成 token 再迭代修正，因此响应更快。这一对比展示了扩散模型在本地推理中的速度优势，可能改变未来本地 LLM 的部署选择。

AI模型 DiffusionGemma Gemma4 本地推理扩散模型速度对比

推荐理由：本地运行 LLM 的开发者终于有了速度新选择——DiffusionGemma 的 4 倍加速意味着更流畅的交互体验，用 atomic[.]chat 的团队可以直接在单卡上体验，值得一试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

12:33

arXiv cs.AI@Yihao Zhao, Xuan Han, Bin He, Mingyu You

精选

针对商品展示图像生成中，前景条件外绘（FCO）方法常出现伪影（即合成背景中与前景实例语义相同的区域）的问题，本文提出CCE-Diffusion框架。其核心是CCE-Module，通过定制概念嵌入来弥合通用名词语义与特定视觉实例之间的差距，并引入实例感知损失和语义保持提示模板来优化。实验表明，该方法显著减少了伪影，提升了图像质量。CCE-Module作为即插即用组件，可集成到多种FCO方法中，为电商等场景提供低成本高质量背景生成方案。

论文图像生成外绘概念嵌入扩散模型电商应用

推荐理由：电商和广告设计团队终于有了解决外绘伪影的实用方案——CCE-Diffusion能直接减少背景中与产品重复的语义区域，让产品更突出。做图像生成或商品展示的开发者可以试试集成这个即插即用模块。

原文

6月9日

11:49

arXiv cs.AI@Mateo Diaz-Bone, Daniel Caraballo, Florian Scheidegger, Thomas Frick, Mattia Rigotti, Andrea Bartezzaghi, Roy Assaf, Niccolo Avogaro, Yagmur G. Cinar, Brown Ebouky, Filip M. Janicki, Piotr S. Kluska, Cezary Skura, Cristiano Malossi

精选

现有异常检测方法在 MVTec 等标准数据集上表现完美，但在真实场景中因物体尺度、视角、背景、光照等变化而失效。该研究提出三项创新：视觉提示管道通过前景-背景掩码隔离物体；在师生模型中解冻教师以提升领域适应性；利用扩散生成合成图像增强数据。基于 Masked Multiscale Reconstruction (MMR) 骨干，该方法在挑战性数据集 AeBAD 上比之前最优方法提升 3.5 个百分点。

论文异常检测视觉提示双教师监督扩散模型 AeBAD

推荐理由：做工业视觉异常检测的团队终于有了应对真实场景变化的方案——视觉提示和双教师监督直接解决了传统方法对背景、视角敏感的痛点，值得在产线上试跑。

原文

6月2日

12:19

arXiv: OpenAI@Hikmet Simsir, Ozgur S. Oguz

精选

论文提出 Lagrangian Perturbation Diffusion Steering (LP-DS)，一种轻量级方法，通过优化冻结生成式策略的噪声空间扰动来提升性能，无需更新大型动作解码器。LP-DS 使用拉格朗日信任域目标，在提升下游价值的同时约束与潜在先验的偏差。在 RoboMimic、OpenAI Gym 和 Adroit 等基准测试中，LP-DS 在样本效率、成功率和回报上均有提升，回报比先前基线提高最多 25%。该方法还适用于流匹配骨干、大型视觉-语言-动作模型，并在真实 Franka 机器人上验证了有效性。

论文扩散模型强化学习机器人操控策略微调信任域优化

推荐理由：做机器人操控或强化学习的团队，终于有了一个不更新大模型也能微调扩散策略的轻量方案——LP-DS 在保持动作多样性的同时提升回报，建议试试看能否解决你的分布偏移问题。

原文

12:10

Latent.Space@latentspacepod

精选

Ethan He 在 Latent Space 播客中分享了对视频生成、世界模型、LLM、智能体和持续学习的看法。他认为视频模型的大部分智能来自语言而非视频数据，idea-to-code 的速度已经很快，瓶颈在于计算资源。他强调迭代速度在模型开发中几乎压倒一切，下一个飞跃将是视频智能体而非更好的视频模型。他还预测扩散模型将成为 AGI 的前端，LLM 作为后端，生成式 UI 将取代 HTML/CSS，物理具身可能成为强大 AI 的工具。

AI模型视频生成世界模型智能体扩散模型 LLM

推荐理由：Ethan He 对 AI 前沿的预判直击要害，做视频生成、智能体或世界模型的开发者看完会有启发——尤其是关于迭代速度和智能体方向的洞察，值得点开细品。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月28日

08:59

marktechpost@Asif Razzaq

精选

Sakana AI 提出 DiffusionBlocks 框架，将残差网络中的每一层更新解释为逆向扩散去噪步骤，从而将网络分解为多个独立可训练的块。这种方法允许每个块单独训练，无需端到端反向传播，降低了训练复杂度和内存需求。实验表明，DiffusionBlocks 在图像生成任务上达到与标准残差网络相当的性能，同时训练效率更高。该工作为扩散模型与残差网络的结合提供了新思路，有望推动大规模模型的分布式训练。

论文扩散模型残差网络块式训练 Sakana AI 图像生成

推荐理由：Sakana AI 这个框架解决了残差网络训练中梯度回传的瓶颈，做大规模生成模型或分布式训练的团队值得关注——它让每个模块可以独立优化，直接降低显存和通信开销。

原文

5月27日

10:53

arXiv cs.LG@Sridhar Mahadevan

精选

本文提出 Kan Extension Transformers (KETs)，一个基于范畴论的统一框架，将多种 Transformer 变体（标准注意力、几何 Transformer、扩散模型）视为加权结构化扩展算子的特例。KET 将注意力推广到高阶单纯形邻域，并揭示了与扩散式补全的桥梁。当扩展算子作用于分离的预测载体而非教师强制隐状态时，形成一种有效的自条件化机制，在不泄露未来 token 的情况下暴露非因果结构。在 Penn Treebank、WikiText-2 和 WikiText-103 上的 12 种 Transformer 变体实验中，严格因果设置下二次 KET 在 WikiText-2 和 WikiText-103 上表现最强；但最大收益来自 predict-detach 机制而非邻域族变化。

论文 Transformer 范畴论自条件化扩散模型注意力机制

推荐理由：这篇论文用范畴论统一了注意力、扩散和自条件化，做 Transformer 架构研究的开发者会看到新的理论视角；predict-detach 机制带来的收益比改邻域更大，值得关注。

原文

10:49

arXiv cs.LG@Nithesh Chandher Karthikeyan, Jonas Unger, Gabriel Eilertsen

精选

本文提出一种基于预训练自监督模型表示的条件扩散模型，用于可控图像生成。传统方法依赖文本提示或语义图等条件机制，需要大量标注数据。该工作通过自监督表示作为条件，不仅提升了无条件图像生成的质量，还提供了一个可操控的表示空间。研究者通过识别变化方向探索该条件空间，展示了平滑性和解耦性等有前景的特性。这项工作为减少对标注数据的依赖、实现更灵活的图像生成控制提供了新思路。

论文扩散模型可控图像生成自监督学习表示条件解耦控制

推荐理由：做图像生成和编辑的研究者可以关注——自监督表示条件化方法有望减少对标注数据的依赖，且提供更平滑、解耦的控制空间，值得深入探索。

原文

5月26日

12:23

arXiv cs.LG@Ali Rouzbayani, Bidhan Roy, Marcos Villagra, Zhiying Jiang

精选72°

巴黎 2.0 是首个通过去中心化计算预训练的视频生成模型，解决了去中心化训练中时间连贯视频生成的难题。相比相同算力预算下的集中式模型，它在低分辨率文本到视频任务中将 FVD 从 561.04 降至 279.01，提升约 2 倍，同时提高了 CLIP 文本-视频相似度和美学评分。该模型基于巴黎 1.0 的去中心化扩散模型架构，无需单一 GPU 集群即可完成训练。这项工作证明了去中心化训练在视频生成领域的可行性，为降低大规模模型训练门槛提供了新路径。

论文视频生成去中心化训练扩散模型开源/仓库 Paris 2.0

推荐理由：去中心化训练让视频生成模型不再依赖昂贵 GPU 集群，做视频生成或分布式训练的团队可以关注这个开源方案，直接降低算力成本。

原文

11:49

arXiv cs.AI@Zixin Jessie Chen, Zhuo Chen, Archer Wang, Jeff Gore, William T. Freeman, Congyue Deng, Marin Soljačić

精选

SKILD 是一种新型扩散模型，通过利用图像和物理系统的尺度不变性，将图像生成和连续超分辨率统一在一个无条件的框架中。其前向过程从粗到细衰减图像内容并注入匹配频谱的高斯噪声，使尺度成为扩散的显式坐标。训练后的反向过程仅通过改变起始时间步即可同时执行生成和任意倍数的超分辨率，无需任务特定架构、条件分支或无分类器引导。在 CIFAR-10 上达到 FID 2.65 和 Inception Score 9.63，在 ImageNet 上实现 2 倍到 8 倍超分辨率，性能超越条件模型，并能重建关键伊辛模型的相关函数。

论文扩散模型超分辨率尺度不变性无条件生成 SKILD

推荐理由：SKILD 用一个模型同时搞定生成和超分，省去了为不同尺度重复训练的麻烦，做图像生成或物理模拟的团队值得关注，直接省掉条件分支和重训练。

原文

5月25日

11:16

arXiv cs.AI@Aneesh Komanduri, Xintao Wu

精选

因果生成建模对于开发可靠、透明的AI系统至关重要，但现有方法通常需要在训练时集成因果约束，缺乏利用预训练基础模型零样本推理能力的统一框架。本文提出FM-CGM，一个模块化框架，通过概念提取器、概念操纵器和反事实生成器三个核心组件，实现端到端的视觉因果推理。该框架利用大型推理模型进行因果推断，结合文本到图像扩散模型进行生成，支持零样本因果发现、干预和反事实生成。同时，作者开发了因果语义引导（CSG）机制，确保语义干预传播到后代概念并保留不变区域。实验表明，该方法能识别合理的因果结构，并生成忠实的反事实图像。

论文因果生成建模基础模型零样本推理反事实生成扩散模型

推荐理由：因果推理是AI可靠性的关键，FM-CGM让零样本因果生成成为可能，做视觉生成或因果推理的研究者可以直接参考其框架设计。

原文

5月23日

09:53

09:53Hugging Face: Blog（博客/媒体）

精选

NVIDIA 发布了 Nemotron-Labs 扩散语言模型，该模型采用扩散机制替代传统的自回归生成方式，大幅提升文本生成速度，接近光速。与 GPT-4 等模型相比，Nemotron-Labs 在保持生成质量的同时，推理速度提升了一个数量级。该模型在多个基准测试中表现出色，尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式，让文本生成更接近实时交互。

AI模型扩散模型文本生成 NVIDIA 推理加速 Nemotron-Labs

推荐理由：NVIDIA 的扩散语言模型将文本生成速度推向新高度，做实时对话或低延迟应用的开发者可以直接关注，它可能改变你对大模型推理速度的认知。

原文

5月22日

11:35

arXiv cs.LG@Javad Parsa, Enis Simsar, Amir Joudaki, Thomas Hofmann, André M. H. Teixeira

精选

SeqLoRA 是一种针对文本到图像扩散模型的高效微调方法，解决了多概念组合生成中的表示干扰问题。现有模块化方法要么依赖昂贵的后处理融合，要么冻结适配子空间，限制了表达力和概念保真度。SeqLoRA 通过双层优化联合优化两个 LoRA 因子，并建立强收敛保证，从理论上证明学习 LoRA 基比固定基方法更有效减少干扰。实验显示，SeqLoRA 在多达 101 个概念上提升了身份保持和可扩展性，无需昂贵融合，减少了属性干扰。

论文 LoRA 多概念生成扩散模型持续学习双层优化

推荐理由：做多概念图像生成的团队终于有了一个兼顾保真度和可扩展性的方案——SeqLoRA 用双层优化解决了 LoRA 的干扰问题，支持上百个概念组合，做个性化扩散模型的开发者值得一试。

原文

11:30

arXiv cs.LG@Samson Gourevitch, Yazid Janati, Dario Shariatian, Umut Simsekli, Eric Moulines, Eric P. Xing, Alain Durmus

精选

本文重新审视了均匀扩散模型（UDM）的训练与推理。研究发现，UDM 的标准参数化并未优化去噪后验，而是优化了一种留一法后验，即预测每个干净 token 时不使用其自身的噪声观测。作者推导了去噪器、留一法后验与分数之间的精确转换，从而分离了参数化与训练目标。基于留一法预测器，他们提出了无需额外训练即可改进推理的预测-校正采样器和温度采样方法。此外，还引入了一种吸收态重构，将 UDM 分解为类似掩码扩散的采样操作，简化了去噪后验。实验表明，留一法参数化持续提升 UDM 生成质量，吸收态构造则匹配或超越掩码扩散，暗示掩码与均匀扩散之间的经验差距更多源于参数化和采样设计，而非边际分布本身。

论文扩散模型 Uniform Diffusion 留一法去噪参数化改进吸收态重构

推荐理由：这篇论文揭示了均匀扩散模型长期被忽视的参数化问题，做离散扩散模型研究的开发者可以直接用留一法改进推理，无需重新训练。看完会对掩码 vs 均匀扩散的差距有全新理解。

原文

11:05

arXiv cs.AI@Stanislav R. Kirpichenko, Andrei V. Konstantinov, Lev V. Utkin

精选

生存分析旨在从含删失数据中估计事件时间分布，但现有方法常对风险函数施加结构假设或离散化时间轴，限制了灵活性并引入近似误差。本文提出生存扩散概率模型（SDPM），一种基于去噪扩散模型的连续时间生存分析方法。SDPM 直接建模生存结果的条件分布，利用条件独立删失假设，通过生成样本结合 Kaplan-Meier 估计器得到生存函数，无需参数假设或时间离散化。在十个真实数据集上，SDPM 在 C-index、时间依赖 AUC 和 Brier 评分上达到与树模型、提升模型和神经网络模型相当的预测性能。合成数据实验表明，SDPM 能更准确地恢复底层连续生存分布的形状，消融研究验证了目标空间变换对事件率校准和预测区分度的提升。

论文生存分析扩散模型连续时间生成模型 SDPM

推荐理由：生存分析是医学、可靠性工程等领域的核心问题，SDPM 用扩散模型绕过了传统方法的参数假设和离散化限制，做生存预测的团队可以直接用公开代码复现，值得关注。

原文

5月21日

11:11

arXiv cs.AI@Riley Zilka, Sergey Khlynovskiy, Allie Wang, Martin Jagersand

精选

HITL-D 是一种结合人类操作与扩散模型的新型共享控制框架，专门针对多步骤、插入和精细操作任务。它通过场景点云和末端执行器笛卡尔位置，自主更新末端执行器方向，减少操纵杆控制轴数，降低操作者认知负荷。12 人用户研究表明，相比传统遥操作，HITL-D 将任务完成时间平均缩短 40%，感知工作负荷降低 37%，并在独立性、直观性和信心等主观评分上显著提升。该工作首次将扩散策略引入人机共享控制，为复杂操作任务的人机协作提供了新范式。

论文扩散模型人机协同共享控制遥操作机器人操作

推荐理由：做机器人遥操作或人机协作研究的团队，HITL-D 用扩散模型把操作者的认知负担砍掉近四成，值得在精细操作场景里试试。

原文

10:57

arXiv cs.AI@Jesse Bettencourt, Xindi Wu, Matan Atzmon, James Lucas, Jonathan Lorraine

精选

预训练扩散模型常作为冻结教师模型用于下游任务（如文本到 3D、单步蒸馏、数据归因），但这些任务依赖蒙特卡洛期望估计梯度，方差大且计算成本高。本文提出 CARV 框架，通过分层蒙特卡洛估计器，在扩散噪声重采样上摊销昂贵上游计算，结合时间步重要性采样和分层逆 CDF 构造，有效降低方差。在文本到 3D 蒸馏和归因实验中，CARV 实现 2-3 倍有效计算加速，且不改变目标函数；在单步蒸馏中方差降低一个数量级，但下游 FID 无改善，表明此时方差已非瓶颈。该工作为扩散模型下游应用提供了高效方差缩减方案。

论文扩散模型方差缩减蒙特卡洛估计文本到 3D 蒸馏

推荐理由：做扩散模型下游应用（如文本到 3D、蒸馏）的团队，如果被梯度方差和计算成本困扰，CARV 的 2-3 倍加速值得直接尝试。

原文

10:22

arXiv cs.LG@Kesong Li, Yixuan Xu, Kuo-kun Tseng, Weiyi Lu, Kan Liu, Tao Lan

精选

Linear-DPO 提出了一种新的直接偏好优化（DPO）方法，解决了现有 DPO 在文本到图像生成中的两大问题：仅适用于扩散模型而忽略流匹配，以及离散 NLP 的 DPO 目标与回归生成任务不匹配。论文通过统一的逆向 SDE 框架推导出覆盖扩散和流匹配的广义 DPO 目标，并从梯度角度指出标准 DPO 目标次优。Linear-DPO 用持续线性效用函数替代激进的 sigmoid 函数，并引入 EMA 更新的参考模型。在扩散模型（SD1.5、SDXL）和流匹配模型（SD3-Medium）上的实验表明，该方法优于现有基线。

论文 DPO 扩散模型流匹配文本到图像生成偏好优化

推荐理由：做文本到图像生成的团队终于有了更稳定的对齐方法——Linear-DPO 统一了扩散和流匹配，解决了 DPO 在生成任务中的目标不匹配问题，做图像生成微调的建议试试。

原文

5月20日

11:37

arXiv cs.LG@Parsa Esmati, Junha Hyung, Amirhossein Dadashzadeh, Jaegul Choo, Majid Mirmehdi

精选

扩散和流生成模型依赖引导机制对齐样本与用户输入，但现有方法如无分类器引导（CFG）是启发式的速度/分数线性组合，忽略生成流形几何，导致概率不守恒，强引导下样本偏离流形。研究者通过连续性方程分析引导，将其分解为散度项和分数平行项，并证明散度项在接近数据流形时结构性地发散。基于此提出自适应流形引导（AdaMaG），通过时间依赖调度和分数平行衰减同时约束两项，无需额外推理成本。实验表明，AdaMaG在图像生成基准上提升真实感、减少幻觉，并在高引导强度下实现受控去饱和。

论文扩散模型流生成模型引导机制概率守恒 AdaMaG

推荐理由：做图像生成的开发者终于有了理论扎实的引导方法——AdaMaG解决了CFG强引导下样本失真和幻觉问题，直接提升生成质量，建议做扩散模型的团队试试。

原文

11:06

arXiv cs.LG@Keanu Nichols, Divya Appapogu, Giscard Biamby, Dina Bashkirova, Anna Rohrbach, Bryan A. Plummer

精选

随着生成式 AI 的普及，图像篡改变得愈发容易，可能传播虚假信息。然而，现有研究缺乏针对不同视觉域中高级篡改的检测方法。为此，研究者提出了 AUDITS 基准，包含超过 53 万张来自用户和新闻照片的图像，利用扩散模型进行修复，支持对篡改类型、大小、质量及域迁移的多轴分析。实验评估了现有检测方法在不同域迁移下的鲁棒性，旨在推动更可靠、泛化的图像篡改检测研究。

论文图像篡改检测 AUDITS 基准扩散模型域迁移视觉安全

推荐理由：图像篡改检测是 AI 安全的关键环节，AUDITS 为研究者提供了首个大规模多轴基准，做视觉取证或 AI 安全的人可以直接用它来评估和提升模型鲁棒性。

原文

10:35

arXiv cs.AI@Hyunsoo Han, Sangyeop Yeo, Jaejun Yoo

精选

该研究提出了一种名为 LIFT and PLACE 的知识蒸馏框架，用于训练轻量级扩散模型。LIFT 将蒸馏过程分解为粗对齐和细调优两个阶段，先让学生模型学习教师模型的整体分布，再处理细节。PLACE 则通过分组自适应系数处理空间非均匀误差，进一步提升了蒸馏效果。实验表明，该方法在图像/潜空间、U-Net/DiT 骨干网络、条件/无条件生成等场景下均有效，甚至在极端压缩（学生模型仅 1.3M 参数，为教师的 1.6%）时，传统蒸馏方法失效（FID 高达 50-200+），而新方法仍能稳定收敛并达到 FID 15.73。

论文知识蒸馏扩散模型模型压缩 LIFT PLACE

推荐理由：做扩散模型轻量化或模型压缩的团队，终于有了一个在极端压缩下仍能稳定训练的蒸馏方案，值得直接复现实验。

原文

5月19日

14:41

arXiv cs.LG@Lifu Wei, Yinuo Ren, Naichen Shi, Yiping Lu

精选

URGE（Unbiased Resampling via Girsanov Estimation）是一种无偏、无梯度的推理时缩放算法，用于扩散生成模型。它通过Girsanov测度变换对模拟轨迹进行路径重要性重加权，并定期重采样，无需计算分数、Hessian或PDE。该方法避免了现有技术中的偏差和高计算开销，在合成测试和扩散模型基准上优于现有推理时引导方法，且实现更简单。URGE建立了路径与粒子级序贯蒙特卡洛之间的等价性，确保两种方案产生相同的无偏终端分布。

论文扩散模型推理时引导无梯度方法序贯蒙特卡洛 Girsanov测度变换

推荐理由：URGE解决了扩散模型推理时引导的计算瓶颈，做生成模型优化或采样加速的研究者可以直接用这个梯度无关的轻量方案，值得关注。

原文

11:44

arXiv cs.AI@Mengyu Sun, Ziyuan Yang, Zunlong Zhou, Junxu Liu, Haibo Hu, Yi Zhang

精选

扩散模型在文本到图像生成中广泛应用，但概念擦除方法常被用于移除不安全内容。然而，研究表明这些方法往往只是抑制而非彻底消除目标概念，模型仍易受唤醒攻击。现有方法多依赖白盒访问，黑盒场景下的概念唤醒尚未被充分探索。本文提出ConceptAgent，一种无需训练的黑盒多智能体框架，通过从代理引导的噪声状态初始化去噪轨迹，成功唤醒被擦除的概念。实验表明，该方法在黑盒设置下无需模型参数或梯度即可实现准确可控的概念唤醒，揭示了当前概念擦除方法的根本局限性。

论文扩散模型概念擦除多智能体框架黑盒攻击 AI安全

推荐理由：做AI安全或内容审核的团队会发现，当前概念擦除方法存在根本漏洞——ConceptAgent无需模型内部信息就能绕过防御。做扩散模型研究的开发者值得看看这篇，它揭示了语义控制动态性的新视角。

原文

11:17

arXiv cs.LG@Yuta Koike

精选

该论文从 Föllmer 过程视角重新分析了去噪扩散概率模型（DDPM）的采样误差，在 2-Wasserstein 距离下给出了更紧的误差上界。主要贡献包括：在 Lipschitz 型分数函数假设下，对余弦调度等方差调度方案建立了维度与步数最优的误差界；证明了这些条件蕴含对数 Sobolev 不等式，从而将 KL 散度的最优误差界转化为 Wasserstein 界；对于一般对数凹目标分布，即使不满足二次运输成本不等式，也能达到最优 Wasserstein 误差界。该工作统一并改进了现有文献中的多个误差界结果。

论文扩散模型 DDPM 采样误差界 Wasserstein 距离 Föllmer 过程

推荐理由：做扩散模型理论或采样加速的读者值得关注——这篇用 Föllmer 过程替代传统反向 OU 过程，给出了更紧的 Wasserstein 误差界，对理解 DDPM 的采样质量与步数关系有直接帮助。

原文

11:01

arXiv cs.LG@Grigory Bartosh, David Ruhe, Emiel Hoogeboom, Jonathan Heek, Thomas Mensink, Tim Salimans

精选

Dual-Rate Diffusion 提出了一种新的扩散模型加速方法，通过交错执行一个稀疏更新的重上下文编码器和一个轻量去噪模型来降低推理成本。重编码器每几步提取一次高维特征，轻量模型则在每一步复用这些特征进行高效去噪。在 ImageNet 基准上，该方法在保持生成质量的同时将计算成本降低 2-4 倍。此外，该方法与蒸馏技术（如 Moment Matching Distillation）兼容，可进一步加速少步生成。

论文扩散模型推理加速 ImageNet 蒸馏生成模型

推荐理由：扩散模型推理慢是落地痛点，Dual-Rate Diffusion 用轻量网络复用特征，做图像生成的团队可以直接拿来加速现有模型，效果不打折。

原文