全部 AI 动态 · AI 热点

6月2日

11:11

arXiv cs.AI@Jingyun Liang, Min Wei, Shikai Li, Yizeng Han, Hangjie Yuan, Lei Sun, Weihua Chen, Fan Wang

该研究提出一种无需渲染的框架，通过将3D人体网格压缩为token，直接输入DiT架构的视频扩散模型，实现精确的人体运动控制。相比依赖2D渲染引导的现有方法，该方法避免了视角依赖伪影和轨迹-姿态不匹配问题。实验表明，该框架在人体运动控制基准上表现优异，证明视频扩散模型通过网格token化能更好地理解3D结构。这项工作为3D感知视频生成提供了新思路。

论文视频生成 3D人体运动控制网格token化扩散模型 DiT架构

推荐理由：做视频生成或3D人体动画的团队终于有了不依赖渲染的精准控制方案——直接压缩3D网格token，避免2D引导的伪影问题，建议做运动控制或虚拟人应用的开发者点开看看。

原文

6月1日

10:36

arXiv cs.AI@Qing Wang, Jacob Devasier, Chengkai Li

本文首次系统研究了掩码扩散语言模型（MDLM）在图到文本生成中的解码轨迹，发现MDLM会优先解码实体，然后是关系词和功能词，最后才是结构词，这与自回归模型的线性生成方式不同。研究还发现监督微调（SFT）会破坏这一策略，过早固定结构词导致输出长度固定，引发信息遗漏或幻觉。为此，作者提出了一种无需训练的推理时修改方法——lambda缩放结构解码，将BLEU-4提升9.4分。最后，他们提出了Graph-LLaDA，将图Transformer编码器集成到LLaDA的解码过程中，显式利用关系图结构。跨数据集评估表明，基于LLM和MDLM的方法泛化能力显著优于传统基线。

论文扩散模型图到文本生成解码轨迹 Graph-LLaDA SFT

推荐理由：这篇论文揭示了扩散模型在图到文本任务中的独特解码机制，做结构化文本生成或知识图谱相关工作的开发者值得关注，尤其是SFT反而有害的发现可能改变你的微调策略。

原文

10:31

arXiv cs.AI@Ruotong Liao, Guowen Huang, Qing Cheng, Guangyao Zhai, Lei Zhang, Xun Xiao, Thomas Seidl, Daniel Cremers, Volker Tresp

TunerDiT 提出了一种无需额外训练的多事件视频生成方法，通过分析扩散变换器（DiT）的去噪轨迹，发现文本条件从全局布局到细节的转变点。该方法包含两个关键组件：事件分区掩码（强制事件边界并允许过渡带）和跨事件提示融合（注入相邻事件语义进行后期细化）。在自建的多事件基准测试 Meve 上，TunerDiT 在 8 个指标上达到最优，并能在视频一致性和事件分离之间进行可调权衡。随着事件数量增加，文本对齐性能提升，显示出扩展潜力。

论文扩散模型视频生成多事件生成 DiT 无需训练

推荐理由：做视频生成的研究者或开发者，如果被长视频多事件生成的一致性困扰，TunerDiT 的零训练方案直接可用，值得关注其事件边界控制与提示融合的设计。

原文

10:27

arXiv cs.LG@Daniel Peñaherrera, Rishal Aggarwal, David Ryan Koes

计算化学中高效采样分子玻尔兹曼分布是一个长期挑战。传统方法计算成本高，而基于扩散模型的退火采样方法需要计算分数场的散度来估计重要性权重，对于大分子系统不可行。本文提出可扩展推理时退火（SITA），通过能量模型提供快速替代似然，重新训练流模型以逐步在更低温度下生成样本。在丙氨酸二肽和三肽上取得最先进性能，且避免了昂贵的散度项。代码已开源。

论文分子模拟扩散模型退火采样能量模型开源/仓库

推荐理由：SITA 解决了大分子系统退火采样中散度计算不可行的痛点，做计算化学和分子模拟的团队可以直接用开源代码复现，值得关注。

原文

10:08

arXiv cs.LG@Alireza Kheirandish, Jihoon Hong, Sara Fridovich-Keil

研究人员提出了一种基于KL散度的分布外检测指标KLIP，用于逆问题中检测图像是否来自训练分布。该方法无需校准数据或了解偏移分布，能检测整张图像或图像局部区域的分布偏移。实验表明，KLIP能检测出细微但语义重要的偏移，如健康肝脏CT与肿瘤CT的差异，且适用于多种扩散模型、数据集和逆问题。代码已开源。

论文扩散模型分布外检测逆问题医学影像 KL散度

推荐理由：做医学影像或逆问题研究的团队，可以用KLIP无监督地检测异常区域，无需额外标注数据，值得试试。

原文

5月29日

12:12

arXiv cs.LG@Benjamin A. Burns, Sara Fridovich-Keil

本文从有限样本视角系统分析了扩散模型在后验采样中的失败机制。研究发现，现有方法在中间时间步对似然函数进行近似时，会系统性地高估或低估后验分布的扩散程度，导致对早期停止时间敏感、后验模式权重不准确以及产生幻觉（包括先验中不存在但后验中出现的模式，以及似然中不受先验支持的模式）。这些错误无需非线性测量模型或多模态后验，仅由多模态先验和中间采样时的不准确后验扩散即可引发。作者提出的有限样本后验采样方法可兼容任何似然近似和正向模型，作为诊断工具评估现有及未来后验采样器的准确性和失败模式。

论文扩散模型后验采样有限样本分析图像逆问题失败模式诊断

推荐理由：做图像逆问题或扩散模型后验采样的研究者，这篇论文直接戳中了现有方法“好用但说不清为什么失败”的痛点——有限样本视角给出了可落地的诊断工具，建议点开看看你的采样器是否也在犯这些错误。

原文

5月28日

19:58

rohanpaul_ai@rohanpaul_ai

研究发现图像扩散Transformer训练效率低下的根源在于残差连接，而非注意力或编码器。残差连接导致信号膨胀、梯度消失和特征冗余，尤其不适合扩散模型这种多步去噪任务。作者提出扩散自适应路由（Diffusion-Adaptive Routing），让每层根据去噪时间步动态选择前层输出，从而在相同图像质量下减少8.75倍训练迭代。该工作没有引入新数据集或注意力机制，而是质疑了从语言Transformer继承的残差结构。

论文扩散模型 Transformer 残差连接训练加速 DiT

推荐理由：扩散模型研究者终于找到了训练瓶颈的隐藏位置——残差连接，8.75倍加速意味着更低的训练成本，做图像生成的团队值得关注这个新路由方案。

原文

12:02

arXiv cs.LG@Jiawei Zhang, Ziyuan Liu, Leon Yan, Zhenyu Xiao, Yuantao Gu

该论文提出了一种名为MAP-RPS的阶段式框架，用于在扩散模型的零样本逆问题求解中实现失真-感知（D-P）权衡的灵活遍历。该方法先通过MAP估计阶段近似MMSE解，提供低失真初始化，再通过重噪后验采样阶段逐步提升感知质量。理论分析验证了设计的有效性，并扩展至潜在空间（LMAP-RPS），利用大规模预训练潜在扩散骨干。实验表明，该方法在多种任务上实现了更有效的D-P遍历，并作为高效求解器表现出色。

论文扩散模型零样本逆问题失真-感知权衡 MAP-RPS 潜在空间

推荐理由：对于从事图像恢复、超分辨率等逆问题的研究者，MAP-RPS提供了一种无需重新训练即可在推理时灵活调节失真与感知质量的方法，值得尝试。

原文

08:59

marktechpost@Asif Razzaq

精选

Sakana AI 提出 DiffusionBlocks 框架，将残差网络中的每一层更新解释为逆向扩散去噪步骤，从而将网络分解为多个独立可训练的块。这种方法允许每个块单独训练，无需端到端反向传播，降低了训练复杂度和内存需求。实验表明，DiffusionBlocks 在图像生成任务上达到与标准残差网络相当的性能，同时训练效率更高。该工作为扩散模型与残差网络的结合提供了新思路，有望推动大规模模型的分布式训练。

论文扩散模型残差网络块式训练 Sakana AI 图像生成

推荐理由：Sakana AI 这个框架解决了残差网络训练中梯度回传的瓶颈，做大规模生成模型或分布式训练的团队值得关注——它让每个模块可以独立优化，直接降低显存和通信开销。

原文

5月27日

10:53

arXiv cs.LG@Sridhar Mahadevan

精选

本文提出 Kan Extension Transformers (KETs)，一个基于范畴论的统一框架，将多种 Transformer 变体（标准注意力、几何 Transformer、扩散模型）视为加权结构化扩展算子的特例。KET 将注意力推广到高阶单纯形邻域，并揭示了与扩散式补全的桥梁。当扩展算子作用于分离的预测载体而非教师强制隐状态时，形成一种有效的自条件化机制，在不泄露未来 token 的情况下暴露非因果结构。在 Penn Treebank、WikiText-2 和 WikiText-103 上的 12 种 Transformer 变体实验中，严格因果设置下二次 KET 在 WikiText-2 和 WikiText-103 上表现最强；但最大收益来自 predict-detach 机制而非邻域族变化。

论文 Transformer 范畴论自条件化扩散模型注意力机制

推荐理由：这篇论文用范畴论统一了注意力、扩散和自条件化，做 Transformer 架构研究的开发者会看到新的理论视角；predict-detach 机制带来的收益比改邻域更大，值得关注。

原文

10:49

arXiv cs.LG@Nithesh Chandher Karthikeyan, Jonas Unger, Gabriel Eilertsen

精选

本文提出一种基于预训练自监督模型表示的条件扩散模型，用于可控图像生成。传统方法依赖文本提示或语义图等条件机制，需要大量标注数据。该工作通过自监督表示作为条件，不仅提升了无条件图像生成的质量，还提供了一个可操控的表示空间。研究者通过识别变化方向探索该条件空间，展示了平滑性和解耦性等有前景的特性。这项工作为减少对标注数据的依赖、实现更灵活的图像生成控制提供了新思路。

论文扩散模型可控图像生成自监督学习表示条件解耦控制

推荐理由：做图像生成和编辑的研究者可以关注——自监督表示条件化方法有望减少对标注数据的依赖，且提供更平滑、解耦的控制空间，值得深入探索。

原文

07:22

berryxia@berryxia

PrismML 发布了 Bonsai Image 4B 扩散模型的 1-bit 和 Ternary 版本，分别仅 0.93GB 和 1.21GB，比全精度模型小 8.3 倍。在 Mac M4 Pro 上生成速度最高提升 5.6 倍，图像质量和提示词遵循度与更大模型相当。同时上线了 Bonsai Studio iOS App，支持 iPhone 本地离线生成图像，无需订阅或 API。这标志着高质量图像生成从云端真正走向个人设备。

AI模型端侧模型扩散模型图像生成模型压缩 PrismML

推荐理由：端侧生图终于不再妥协——Bonsai Image 4B 用极致压缩把云端级质量塞进手机，做移动端 AI 应用或离线创作工具的开发者可以直接在 iPhone 上试，无需联网和付费。

原文

5月26日

12:23

arXiv cs.LG@Ali Rouzbayani, Bidhan Roy, Marcos Villagra, Zhiying Jiang

精选72°

巴黎 2.0 是首个通过去中心化计算预训练的视频生成模型，解决了去中心化训练中时间连贯视频生成的难题。相比相同算力预算下的集中式模型，它在低分辨率文本到视频任务中将 FVD 从 561.04 降至 279.01，提升约 2 倍，同时提高了 CLIP 文本-视频相似度和美学评分。该模型基于巴黎 1.0 的去中心化扩散模型架构，无需单一 GPU 集群即可完成训练。这项工作证明了去中心化训练在视频生成领域的可行性，为降低大规模模型训练门槛提供了新路径。

论文视频生成去中心化训练扩散模型开源/仓库 Paris 2.0

推荐理由：去中心化训练让视频生成模型不再依赖昂贵 GPU 集群，做视频生成或分布式训练的团队可以关注这个开源方案，直接降低算力成本。

原文

11:49

arXiv cs.AI@Zixin Jessie Chen, Zhuo Chen, Archer Wang, Jeff Gore, William T. Freeman, Congyue Deng, Marin Soljačić

精选

SKILD 是一种新型扩散模型，通过利用图像和物理系统的尺度不变性，将图像生成和连续超分辨率统一在一个无条件的框架中。其前向过程从粗到细衰减图像内容并注入匹配频谱的高斯噪声，使尺度成为扩散的显式坐标。训练后的反向过程仅通过改变起始时间步即可同时执行生成和任意倍数的超分辨率，无需任务特定架构、条件分支或无分类器引导。在 CIFAR-10 上达到 FID 2.65 和 Inception Score 9.63，在 ImageNet 上实现 2 倍到 8 倍超分辨率，性能超越条件模型，并能重建关键伊辛模型的相关函数。

论文扩散模型超分辨率尺度不变性无条件生成 SKILD

推荐理由：SKILD 用一个模型同时搞定生成和超分，省去了为不同尺度重复训练的麻烦，做图像生成或物理模拟的团队值得关注，直接省掉条件分支和重训练。

原文

11:44

arXiv cs.AI@Shuhong Zheng, Aashish Kumar Misraa, Yu-Teng Li, Yu-Jhe Li, Igor Gilitschenski

主体驱动图像生成旨在根据文本指令生成保留给定主体身份的新图像。现有方法通常分别编码文本和参考图像，限制了跨模态推理能力并导致复制粘贴伪影。本文提出了一种新框架，通过将扩散模型与多模态大语言模型（MLLM）结合，并引入基于VAE的身份条件，实现了文本指令与身份保留的平衡。其中，双层级聚合（DLA）模块用于融合MLLM的多层特征，多阶段去噪策略在推理时逐步平衡语义信息与细节身份。实验表明，该方法在主体驱动图像生成中优于现有方法，有效缓解了复制粘贴问题，并更符合人类偏好。

论文多模态大语言模型主体驱动生成扩散模型身份保留图像生成

推荐理由：做图像生成或AI绘画的开发者，这篇论文解决了主体身份保留与文本指令跟随的长期矛盾，提出的DLA模块和多阶段去噪策略可以直接参考，值得点开看看具体实现。

原文

5月25日

11:16

arXiv cs.AI@Aneesh Komanduri, Xintao Wu

精选

因果生成建模对于开发可靠、透明的AI系统至关重要，但现有方法通常需要在训练时集成因果约束，缺乏利用预训练基础模型零样本推理能力的统一框架。本文提出FM-CGM，一个模块化框架，通过概念提取器、概念操纵器和反事实生成器三个核心组件，实现端到端的视觉因果推理。该框架利用大型推理模型进行因果推断，结合文本到图像扩散模型进行生成，支持零样本因果发现、干预和反事实生成。同时，作者开发了因果语义引导（CSG）机制，确保语义干预传播到后代概念并保留不变区域。实验表明，该方法能识别合理的因果结构，并生成忠实的反事实图像。

论文因果生成建模基础模型零样本推理反事实生成扩散模型

推荐理由：因果推理是AI可靠性的关键，FM-CGM让零样本因果生成成为可能，做视觉生成或因果推理的研究者可以直接参考其框架设计。

原文

5月23日

09:53

09:53Hugging Face: Blog（博客/媒体）

精选

NVIDIA 发布了 Nemotron-Labs 扩散语言模型，该模型采用扩散机制替代传统的自回归生成方式，大幅提升文本生成速度，接近光速。与 GPT-4 等模型相比，Nemotron-Labs 在保持生成质量的同时，推理速度提升了一个数量级。该模型在多个基准测试中表现出色，尤其适合需要低延迟的实时应用场景。这一突破可能改变大语言模型的部署范式，让文本生成更接近实时交互。

AI模型扩散模型文本生成 NVIDIA 推理加速 Nemotron-Labs

推荐理由：NVIDIA 的扩散语言模型将文本生成速度推向新高度，做实时对话或低延迟应用的开发者可以直接关注，它可能改变你对大模型推理速度的认知。

原文

5月22日

11:35

arXiv cs.LG@Javad Parsa, Enis Simsar, Amir Joudaki, Thomas Hofmann, André M. H. Teixeira

精选

SeqLoRA 是一种针对文本到图像扩散模型的高效微调方法，解决了多概念组合生成中的表示干扰问题。现有模块化方法要么依赖昂贵的后处理融合，要么冻结适配子空间，限制了表达力和概念保真度。SeqLoRA 通过双层优化联合优化两个 LoRA 因子，并建立强收敛保证，从理论上证明学习 LoRA 基比固定基方法更有效减少干扰。实验显示，SeqLoRA 在多达 101 个概念上提升了身份保持和可扩展性，无需昂贵融合，减少了属性干扰。

论文 LoRA 多概念生成扩散模型持续学习双层优化

推荐理由：做多概念图像生成的团队终于有了一个兼顾保真度和可扩展性的方案——SeqLoRA 用双层优化解决了 LoRA 的干扰问题，支持上百个概念组合，做个性化扩散模型的开发者值得一试。

原文

11:30

arXiv cs.LG@Samson Gourevitch, Yazid Janati, Dario Shariatian, Umut Simsekli, Eric Moulines, Eric P. Xing, Alain Durmus

精选

本文重新审视了均匀扩散模型（UDM）的训练与推理。研究发现，UDM 的标准参数化并未优化去噪后验，而是优化了一种留一法后验，即预测每个干净 token 时不使用其自身的噪声观测。作者推导了去噪器、留一法后验与分数之间的精确转换，从而分离了参数化与训练目标。基于留一法预测器，他们提出了无需额外训练即可改进推理的预测-校正采样器和温度采样方法。此外，还引入了一种吸收态重构，将 UDM 分解为类似掩码扩散的采样操作，简化了去噪后验。实验表明，留一法参数化持续提升 UDM 生成质量，吸收态构造则匹配或超越掩码扩散，暗示掩码与均匀扩散之间的经验差距更多源于参数化和采样设计，而非边际分布本身。

论文扩散模型 Uniform Diffusion 留一法去噪参数化改进吸收态重构

推荐理由：这篇论文揭示了均匀扩散模型长期被忽视的参数化问题，做离散扩散模型研究的开发者可以直接用留一法改进推理，无需重新训练。看完会对掩码 vs 均匀扩散的差距有全新理解。

原文

11:05

arXiv cs.AI@Stanislav R. Kirpichenko, Andrei V. Konstantinov, Lev V. Utkin

精选

生存分析旨在从含删失数据中估计事件时间分布，但现有方法常对风险函数施加结构假设或离散化时间轴，限制了灵活性并引入近似误差。本文提出生存扩散概率模型（SDPM），一种基于去噪扩散模型的连续时间生存分析方法。SDPM 直接建模生存结果的条件分布，利用条件独立删失假设，通过生成样本结合 Kaplan-Meier 估计器得到生存函数，无需参数假设或时间离散化。在十个真实数据集上，SDPM 在 C-index、时间依赖 AUC 和 Brier 评分上达到与树模型、提升模型和神经网络模型相当的预测性能。合成数据实验表明，SDPM 能更准确地恢复底层连续生存分布的形状，消融研究验证了目标空间变换对事件率校准和预测区分度的提升。

论文生存分析扩散模型连续时间生成模型 SDPM

推荐理由：生存分析是医学、可靠性工程等领域的核心问题，SDPM 用扩散模型绕过了传统方法的参数假设和离散化限制，做生存预测的团队可以直接用公开代码复现，值得关注。

原文

5月21日

11:11

arXiv cs.AI@Riley Zilka, Sergey Khlynovskiy, Allie Wang, Martin Jagersand

精选

HITL-D 是一种结合人类操作与扩散模型的新型共享控制框架，专门针对多步骤、插入和精细操作任务。它通过场景点云和末端执行器笛卡尔位置，自主更新末端执行器方向，减少操纵杆控制轴数，降低操作者认知负荷。12 人用户研究表明，相比传统遥操作，HITL-D 将任务完成时间平均缩短 40%，感知工作负荷降低 37%，并在独立性、直观性和信心等主观评分上显著提升。该工作首次将扩散策略引入人机共享控制，为复杂操作任务的人机协作提供了新范式。

论文扩散模型人机协同共享控制遥操作机器人操作

推荐理由：做机器人遥操作或人机协作研究的团队，HITL-D 用扩散模型把操作者的认知负担砍掉近四成，值得在精细操作场景里试试。

原文

10:57

arXiv cs.AI@Jesse Bettencourt, Xindi Wu, Matan Atzmon, James Lucas, Jonathan Lorraine

精选

预训练扩散模型常作为冻结教师模型用于下游任务（如文本到 3D、单步蒸馏、数据归因），但这些任务依赖蒙特卡洛期望估计梯度，方差大且计算成本高。本文提出 CARV 框架，通过分层蒙特卡洛估计器，在扩散噪声重采样上摊销昂贵上游计算，结合时间步重要性采样和分层逆 CDF 构造，有效降低方差。在文本到 3D 蒸馏和归因实验中，CARV 实现 2-3 倍有效计算加速，且不改变目标函数；在单步蒸馏中方差降低一个数量级，但下游 FID 无改善，表明此时方差已非瓶颈。该工作为扩散模型下游应用提供了高效方差缩减方案。

论文扩散模型方差缩减蒙特卡洛估计文本到 3D 蒸馏

推荐理由：做扩散模型下游应用（如文本到 3D、蒸馏）的团队，如果被梯度方差和计算成本困扰，CARV 的 2-3 倍加速值得直接尝试。

原文

10:22

arXiv cs.LG@Kesong Li, Yixuan Xu, Kuo-kun Tseng, Weiyi Lu, Kan Liu, Tao Lan

精选

Linear-DPO 提出了一种新的直接偏好优化（DPO）方法，解决了现有 DPO 在文本到图像生成中的两大问题：仅适用于扩散模型而忽略流匹配，以及离散 NLP 的 DPO 目标与回归生成任务不匹配。论文通过统一的逆向 SDE 框架推导出覆盖扩散和流匹配的广义 DPO 目标，并从梯度角度指出标准 DPO 目标次优。Linear-DPO 用持续线性效用函数替代激进的 sigmoid 函数，并引入 EMA 更新的参考模型。在扩散模型（SD1.5、SDXL）和流匹配模型（SD3-Medium）上的实验表明，该方法优于现有基线。

论文 DPO 扩散模型流匹配文本到图像生成偏好优化

推荐理由：做文本到图像生成的团队终于有了更稳定的对齐方法——Linear-DPO 统一了扩散和流匹配，解决了 DPO 在生成任务中的目标不匹配问题，做图像生成微调的建议试试。

原文

5月20日

11:37

arXiv cs.LG@Parsa Esmati, Junha Hyung, Amirhossein Dadashzadeh, Jaegul Choo, Majid Mirmehdi

精选

扩散和流生成模型依赖引导机制对齐样本与用户输入，但现有方法如无分类器引导（CFG）是启发式的速度/分数线性组合，忽略生成流形几何，导致概率不守恒，强引导下样本偏离流形。研究者通过连续性方程分析引导，将其分解为散度项和分数平行项，并证明散度项在接近数据流形时结构性地发散。基于此提出自适应流形引导（AdaMaG），通过时间依赖调度和分数平行衰减同时约束两项，无需额外推理成本。实验表明，AdaMaG在图像生成基准上提升真实感、减少幻觉，并在高引导强度下实现受控去饱和。

论文扩散模型流生成模型引导机制概率守恒 AdaMaG

推荐理由：做图像生成的开发者终于有了理论扎实的引导方法——AdaMaG解决了CFG强引导下样本失真和幻觉问题，直接提升生成质量，建议做扩散模型的团队试试。

原文

11:06

arXiv cs.LG@Keanu Nichols, Divya Appapogu, Giscard Biamby, Dina Bashkirova, Anna Rohrbach, Bryan A. Plummer

精选

随着生成式 AI 的普及，图像篡改变得愈发容易，可能传播虚假信息。然而，现有研究缺乏针对不同视觉域中高级篡改的检测方法。为此，研究者提出了 AUDITS 基准，包含超过 53 万张来自用户和新闻照片的图像，利用扩散模型进行修复，支持对篡改类型、大小、质量及域迁移的多轴分析。实验评估了现有检测方法在不同域迁移下的鲁棒性，旨在推动更可靠、泛化的图像篡改检测研究。

论文图像篡改检测 AUDITS 基准扩散模型域迁移视觉安全

推荐理由：图像篡改检测是 AI 安全的关键环节，AUDITS 为研究者提供了首个大规模多轴基准，做视觉取证或 AI 安全的人可以直接用它来评估和提升模型鲁棒性。

原文

10:35

arXiv cs.AI@Hyunsoo Han, Sangyeop Yeo, Jaejun Yoo

精选

该研究提出了一种名为 LIFT and PLACE 的知识蒸馏框架，用于训练轻量级扩散模型。LIFT 将蒸馏过程分解为粗对齐和细调优两个阶段，先让学生模型学习教师模型的整体分布，再处理细节。PLACE 则通过分组自适应系数处理空间非均匀误差，进一步提升了蒸馏效果。实验表明，该方法在图像/潜空间、U-Net/DiT 骨干网络、条件/无条件生成等场景下均有效，甚至在极端压缩（学生模型仅 1.3M 参数，为教师的 1.6%）时，传统蒸馏方法失效（FID 高达 50-200+），而新方法仍能稳定收敛并达到 FID 15.73。

论文知识蒸馏扩散模型模型压缩 LIFT PLACE

推荐理由：做扩散模型轻量化或模型压缩的团队，终于有了一个在极端压缩下仍能稳定训练的蒸馏方案，值得直接复现实验。

原文

08:44

NVIDIA AI@NVIDIAAI

76°

NVIDIA 发布了 Nemotron-Labs-Diffusion 系列扩散语言模型，与传统逐 token 生成不同，该模型能在单次推理中并行生成多个 token，并支持在生成过程中进行修订。这种设计充分利用了现代 GPU 的并行计算能力，显著提升推理速度。模型系列包含 3B 到 14B 参数规模，并提供了视觉-语言变体。目前该模型已开源可用。

AI模型扩散模型并行生成 NVIDIA Nemotron 推理加速

推荐理由：NVIDIA 的扩散语言模型打破了传统逐 token 生成瓶颈，做推理加速或大模型部署的团队可以直接拿来提升 GPU 利用率，值得关注。

原文

5月19日

14:41

arXiv cs.LG@Lifu Wei, Yinuo Ren, Naichen Shi, Yiping Lu

精选

URGE（Unbiased Resampling via Girsanov Estimation）是一种无偏、无梯度的推理时缩放算法，用于扩散生成模型。它通过Girsanov测度变换对模拟轨迹进行路径重要性重加权，并定期重采样，无需计算分数、Hessian或PDE。该方法避免了现有技术中的偏差和高计算开销，在合成测试和扩散模型基准上优于现有推理时引导方法，且实现更简单。URGE建立了路径与粒子级序贯蒙特卡洛之间的等价性，确保两种方案产生相同的无偏终端分布。

论文扩散模型推理时引导无梯度方法序贯蒙特卡洛 Girsanov测度变换

推荐理由：URGE解决了扩散模型推理时引导的计算瓶颈，做生成模型优化或采样加速的研究者可以直接用这个梯度无关的轻量方案，值得关注。

原文

11:44

arXiv cs.AI@Mengyu Sun, Ziyuan Yang, Zunlong Zhou, Junxu Liu, Haibo Hu, Yi Zhang

精选

扩散模型在文本到图像生成中广泛应用，但概念擦除方法常被用于移除不安全内容。然而，研究表明这些方法往往只是抑制而非彻底消除目标概念，模型仍易受唤醒攻击。现有方法多依赖白盒访问，黑盒场景下的概念唤醒尚未被充分探索。本文提出ConceptAgent，一种无需训练的黑盒多智能体框架，通过从代理引导的噪声状态初始化去噪轨迹，成功唤醒被擦除的概念。实验表明，该方法在黑盒设置下无需模型参数或梯度即可实现准确可控的概念唤醒，揭示了当前概念擦除方法的根本局限性。

论文扩散模型概念擦除多智能体框架黑盒攻击 AI安全

推荐理由：做AI安全或内容审核的团队会发现，当前概念擦除方法存在根本漏洞——ConceptAgent无需模型内部信息就能绕过防御。做扩散模型研究的开发者值得看看这篇，它揭示了语义控制动态性的新视角。

原文

11:17

arXiv cs.LG@Yuta Koike

精选

该论文从 Föllmer 过程视角重新分析了去噪扩散概率模型（DDPM）的采样误差，在 2-Wasserstein 距离下给出了更紧的误差上界。主要贡献包括：在 Lipschitz 型分数函数假设下，对余弦调度等方差调度方案建立了维度与步数最优的误差界；证明了这些条件蕴含对数 Sobolev 不等式，从而将 KL 散度的最优误差界转化为 Wasserstein 界；对于一般对数凹目标分布，即使不满足二次运输成本不等式，也能达到最优 Wasserstein 误差界。该工作统一并改进了现有文献中的多个误差界结果。

论文扩散模型 DDPM 采样误差界 Wasserstein 距离 Föllmer 过程

推荐理由：做扩散模型理论或采样加速的读者值得关注——这篇用 Föllmer 过程替代传统反向 OU 过程，给出了更紧的 Wasserstein 误差界，对理解 DDPM 的采样质量与步数关系有直接帮助。

原文

11:01

arXiv cs.LG@Grigory Bartosh, David Ruhe, Emiel Hoogeboom, Jonathan Heek, Thomas Mensink, Tim Salimans

精选

Dual-Rate Diffusion 提出了一种新的扩散模型加速方法，通过交错执行一个稀疏更新的重上下文编码器和一个轻量去噪模型来降低推理成本。重编码器每几步提取一次高维特征，轻量模型则在每一步复用这些特征进行高效去噪。在 ImageNet 基准上，该方法在保持生成质量的同时将计算成本降低 2-4 倍。此外，该方法与蒸馏技术（如 Moment Matching Distillation）兼容，可进一步加速少步生成。

论文扩散模型推理加速 ImageNet 蒸馏生成模型

推荐理由：扩散模型推理慢是落地痛点，Dual-Rate Diffusion 用轻量网络复用特征，做图像生成的团队可以直接拿来加速现有模型，效果不打折。

原文

10:13

arXiv cs.AI@Shuyin Ouyang, Zhaozhi Qian, Faroq AL-Tam, Muhammad AL-Qurishi, Jie M. Zhang

精选

该论文系统研究了扩散语言模型在代码生成中的强化学习后训练，重点探索了三种维度：奖励设计、提示条件采样和任务难度。研究发现，静态检查作为无需执行的奖励信号，在HumanEval上使DiffuCoder从53.9提升至67.1，在LiveCodeBench上从14.9提升至15.5，同时减少9.4%的推理时间。中等程度的AST提示在困难任务上最有效，而奖励设计的最佳选择依赖于任务难度：相似度奖励在简单子集上更优，静态检查在困难子集上更可靠。这些发现表明，奖励设计和训练指导显著影响扩散RL在代码生成中的表现。

论文代码生成强化学习扩散模型静态分析奖励设计

推荐理由：做代码生成模型训练的团队会发现，静态检查奖励比执行测试更高效且能避免能力悬崖，建议在困难任务上优先采用。

原文

5月15日

23:12

AlphaSignal@AlphaSignalAI

精选73°

研究人员提出Embedded Language Flows方法，让扩散模型在文本生成任务上仅需传统方法十分之一的数据量即可达到更优性能。该方法全程在连续嵌入空间操作，仅在最后一步将向量转换为单词，无需单独的解码器。通过预测干净嵌入而非噪声，并在训练中应用无分类器引导，该方法在语言基准测试中困惑度更低，并在翻译和摘要任务上超越自回归模型。这一成果挑战了“连续扩散在语言领域行不通”的普遍认知。

论文扩散模型文本生成连续嵌入 Embedded Language Flows NLP

推荐理由：扩散模型终于能高效处理文本了，做NLP或生成式AI的团队可以关注这个新范式——数据需求降低10倍，性能反而更好，值得一试。

原文

00:24

AK@_akhaliq

精选

AnyFlow 是一种新型视频扩散模型，支持任意步长的生成，通过策略流图蒸馏技术提升效率。该方法解决了传统视频扩散模型在步长选择上的限制，允许用户根据需求灵活调整生成速度和质量。关键创新在于在线策略流图蒸馏，使模型在训练和推理时都能适应不同步长。这项研究有望降低视频生成的计算成本，同时保持高质量输出。

论文视频生成扩散模型蒸馏 AnyFlow 策略流图

推荐理由：视频生成开发者终于有了灵活控制步长的方案——AnyFlow 让生成速度和质量可调，做视频 AI 的团队值得关注，能显著降低推理成本。

原文

5月14日

16:33

16:33IT之家（博客/媒体）

据路透社报道，微软正积极物色人工智能初创企业，为未来减少对OpenAI的依赖做准备。潜在收购旨在储备AI人才并打造顶尖模型，曾考虑收购代码生成公司Cursor但因监管担忧放弃。微软还与斯坦福团队创立的Inception洽谈，该公司采用扩散模型技术研发文本生成，估值期望超10亿美元。微软对OpenAI的累计投入已超1000亿美元，但双方矛盾渐显，近期协议已放宽限制。收购竞争激烈，SpaceX等对手也在争夺同一标的。

行业微软 OpenAI 收购 AI初创企业扩散模型

推荐理由：微软的收购动向直接反映AI行业格局变化，做AI战略或投资的读者值得关注——这可能是微软自研模型的关键一步，也暗示OpenAI合作关系的松动。

原文

13:26

arXiv cs.LG@Zhonghao Li, Chaoyu Liu, Qian Zhang

精选

Di-BiLPS 是一种新型神经网络框架，专门解决在观测数据极度稀疏（低至3%）时偏微分方程（PDE）的正向和逆向问题。它结合了变分自编码器压缩高维输入、潜变量扩散模块处理不确定性，以及对比学习对齐表征，所有操作在紧凑的潜空间中进行，大幅提升推理效率。实验表明，在多个PDE基准上，Di-BiLPS在极稀疏输入下达到最先进性能，同时计算成本显著降低。此外，该框架支持零样本超分辨率，可在连续时空域进行预测。

论文 PDE求解稀疏观测潜变量模型扩散模型零样本超分辨率

推荐理由：PDE求解在稀疏观测场景下一直是个难题，Di-BiLPS用潜空间扩散和对比学习解决了精度和效率的双重瓶颈。做科学计算或物理模拟的开发者，尤其是处理传感器数据稀疏的团队，值得关注这个新范式。

原文

13:26

arXiv cs.LG@Zijie Wu, Lixin Xu, Puhua Jiang, Sicong Liu, Chunchao Guo, Xiang Bai

精选

R-DMesh 提出了一种解决视频引导3D动画中姿态错位问题的统一框架。传统方法在用户提供的静态网格与参考视频起始帧姿态不匹配时，会导致几何扭曲或动画失败。R-DMesh 通过引入新型 VAE 将输入解耦为条件基础网格、相对运动轨迹和矫正跳跃偏移，并利用 Triflow Attention 机制确保物理一致性和局部刚性。该方法基于 Rectified Flow 的扩散 Transformer 从预训练视频中迁移时空先验，并构建了包含50万动态网格序列的 Video-RDMesh 数据集。实验表明，R-DMesh 有效解决了姿态对齐问题，并支持姿态重定向和整体4D生成等下游应用。

论文 3D动画姿态对齐扩散模型动态网格视频引导

推荐理由：做3D动画和内容生成的团队终于有了解决姿态错位痛点的方案——R-DMesh 能自动矫正网格姿态对齐视频，避免手动调整的繁琐，建议做动态资产制作的开发者点开看看。

原文

5月13日

19:12

arXiv cs.AI@Guohui Zhang, XiaoXiao Ma, Jie Huang, Hang Xu, Hu Yu, Siming Fu, Yuming Li, Zeyue Xue, Lin Song, Haoyang Huang, Nan Duan, Feng Zhao

精选

OmniNFT 提出了一种面向联合音视频生成的扩散强化学习框架，解决了多目标强化学习中优势不一致、梯度失衡和信用分配不均三大问题。该方法通过模态级优势路由、层级梯度手术和区域级损失重加权，显著提升了音频和视频的感知质量、跨模态对齐和音视频同步。在 JavisBench 和 VBench 基准测试中，基于 LTX-2 骨干的 OmniNFT 实现了全面性能提升。该工作为多模态生成任务中的强化学习应用提供了新范式。

论文扩散模型强化学习多模态生成音视频对齐 OmniNFT

推荐理由：做多模态生成或音视频联合建模的团队，终于有了一个能同时优化模态内质量和跨模态对齐的 RL 框架，值得关注其方法论对自家任务的迁移潜力。

原文

5月12日

19:11

arXiv cs.LG@Wei Chow, Linfeng Li, Xian Sun, Lingdong Kong, Zefeng Li, Qi Xu, Hang Song, Tian Ye, Xian Wang, Jinbin Bai, Shilin Xu, Xiangtai Li, Junting Pan, Shaoteng Liu, Ran Zhou, Tianshu Yang, Songhua Liu

最近，研究者提出了一种基于掩码生成Transformer（MGT）的图像编辑新方法EditMGT，这是首个MGT编辑框架。与主流的扩散模型不同，MGT的局部化预测机制能天然将修改限制在目标区域，避免编辑结果扩散到其他部分。该方法通过多层注意力合并和区域保持采样实现精准编辑，并构建了包含200万高分辨率样本的数据集CrispEdit-2M。在多个基准测试中，EditMGT在仅96亿参数下实现了领先的图像相似度，编辑速度快了6倍。这表明MGT是扩散模型编辑的有力替代方案。

论文图像编辑掩码生成Transformer 扩散模型编辑数据集局部编辑

推荐理由：这项工作为图像编辑提供了一个全新思路，其局部化编辑特性和显著速度优势可能推动实用编辑工具的开发，值得关注。

原文

19:10

arXiv cs.AI@Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He

研究者提出ELF（Embedded Language Flows）模型，将连续流匹配应用于语言建模。与现有主要在离散词元上操作的扩散语言模型不同，ELF在连续嵌入空间中运行，仅在最后一步通过共享权重网络映射为离散词元。该方法可简单适配图像扩散领域的成熟技术（如无分类器引导）。实验显示，ELF在生成质量和采样步数上均显著优于当前领先的离散和连续扩散语言模型，为高效连续语言模型提供了新方向。

论文流匹配扩散模型语言建模连续嵌入 ELF

推荐理由：ELF展示了连续扩散模型在语言建模中的有效性，简化了技术迁移路径，可能降低语言生成模型的设计复杂度。其较少的采样步数有利于实际应用效率，值得关注。

原文