扩散模型·general

扩散模型

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
90
§ 01综述

扩散模型作为生成式AI的核心范式之一,近期在效率、可控性和理论理解上均有显著突破。训练与推理加速成为焦点:针对DiT等架构训练慢的问题,有研究指出残差连接是瓶颈并提出8.75倍加速方法 (DiT训练慢?新方法8.75倍加速,根源在残差连接);Sakana AI 提出的 DiffusionBlocks 则将残差网络转换为独立可训练的去噪模块,实现块级训练 (Sakana AI 提出 DiffusionBlocks)。视频生成方面,VideoMLA 通过低秩潜变量KV缓存实现了分钟级自回归视频扩散,突破了长时序生成的效率瓶颈 (VideoMLA:低秩潜变量KV缓存实现分钟级自回归视频扩散)。在可控性和逆问题求解上,表示条件扩散模型支持灵活的图像生成控制 (表示条件扩散模型:实现可控图像生成),同时 MAP-RPS 提出阶段式失真-感知遍历方法,解决了扩散模型在零样本逆问题中的采样失败现象 (MAP-RPS:扩散模型零样本逆问题)。此外,理论层面有研究从有限样本视角分析了扩散后验采样失败的原因 (扩散后验采样何时、为何、如何失败?),而 Kan Extension Transformers 则尝试用范畴框架统一注意力与扩散 (Kan Extension Transformers)。端侧部署亦有进展:PrismML 发布 4B 参数端侧生图模型 Bonsai Image,1-bit 版仅 0.93GB (PrismML 发布 Bonsai Image 4B)。YC 近期举办 Paper Club 聚焦 AI 研究与生产落地,也反映了业界对扩散模型实用化的重视 (YC 举办首届 Paper Club)。当前焦点在于如何在保持生成质量的同时持续降低计算成本,以及增强模型的可控性和可解释性;未来观察方向包括扩散模型与自回归模型的融合、更高效的后验采样方法,以及面向移动端和边缘设备的极轻量化架构。

§ 02相关报道10 条在档
  1. 01
    DiffusionGemma 支持微调,Unsloth 演示解数独
    小互
  2. 02
    Google 开源 DiffusionGemma:扩散架构模型,1000+ tokens/s
    小互
  3. 03
    谷歌推出 DiffusionGemma 文本扩散模型,本地推理速度提升 4 倍
    IT之家
  4. 04
    Google DiffusionGemma 开源:4倍速文本生成,18GB显卡可跑
    berryxia
  5. 05
    Google 开源 DiffusionGemma 26B 模型,NVIDIA 免费托管
    Simon Willison’s Weblog
  6. 06
    Google 发布 DiffusionGemma:通过扩散生成文本,速度提升 4 倍
    Decoder
  7. 07
    Google 发布 DiffusionGemma:26B MoE 开源模型,激活仅 3.8B,推理速度超快
    rohanpaul_ai
  8. 08
    DiffusionGemma:4倍速文本生成,Apache 2.0开源
    Patrick Loeber
  9. 09
    DiffusionGemma:基于Gemma 4的扩散模型,每秒1000+ tokens
    Philipp Schmid
  10. 10
    DiffusionGemma: 文本生成速度提升4倍
    Google DeepMind: Blog
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B