扩散模型作为生成式AI的核心范式之一,近期在效率、可控性和理论理解上均有显著突破。训练与推理加速成为焦点:针对DiT等架构训练慢的问题,有研究指出残差连接是瓶颈并提出8.75倍加速方法 (DiT训练慢?新方法8.75倍加速,根源在残差连接);Sakana AI 提出的 DiffusionBlocks 则将残差网络转换为独立可训练的去噪模块,实现块级训练 (Sakana AI 提出 DiffusionBlocks)。视频生成方面,VideoMLA 通过低秩潜变量KV缓存实现了分钟级自回归视频扩散,突破了长时序生成的效率瓶颈 (VideoMLA:低秩潜变量KV缓存实现分钟级自回归视频扩散)。在可控性和逆问题求解上,表示条件扩散模型支持灵活的图像生成控制 (表示条件扩散模型:实现可控图像生成),同时 MAP-RPS 提出阶段式失真-感知遍历方法,解决了扩散模型在零样本逆问题中的采样失败现象 (MAP-RPS:扩散模型零样本逆问题)。此外,理论层面有研究从有限样本视角分析了扩散后验采样失败的原因 (扩散后验采样何时、为何、如何失败?),而 Kan Extension Transformers 则尝试用范畴框架统一注意力与扩散 (Kan Extension Transformers)。端侧部署亦有进展:PrismML 发布 4B 参数端侧生图模型 Bonsai Image,1-bit 版仅 0.93GB (PrismML 发布 Bonsai Image 4B)。YC 近期举办 Paper Club 聚焦 AI 研究与生产落地,也反映了业界对扩散模型实用化的重视 (YC 举办首届 Paper Club)。当前焦点在于如何在保持生成质量的同时持续降低计算成本,以及增强模型的可控性和可解释性;未来观察方向包括扩散模型与自回归模型的融合、更高效的后验采样方法,以及面向移动端和边缘设备的极轻量化架构。
№扩散模型·general
扩散模型
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-11
- 累计提及
- 90
§ 01综述
§ 02相关报道10 条在档
- 01DiffusionGemma 支持微调,Unsloth 演示解数独
- 02Google 开源 DiffusionGemma:扩散架构模型,1000+ tokens/s
- 03谷歌推出 DiffusionGemma 文本扩散模型,本地推理速度提升 4 倍
- 04Google DiffusionGemma 开源:4倍速文本生成,18GB显卡可跑
- 05Google 开源 DiffusionGemma 26B 模型,NVIDIA 免费托管
- 06Google 发布 DiffusionGemma:通过扩散生成文本,速度提升 4 倍
- 07Google 发布 DiffusionGemma:26B MoE 开源模型,激活仅 3.8B,推理速度超快
- 08DiffusionGemma:4倍速文本生成,Apache 2.0开源
- 09DiffusionGemma:基于Gemma 4的扩散模型,每秒1000+ tokens
- 10DiffusionGemma: 文本生成速度提升4倍
§ 03邻近话题