全部 AI 动态 · AI 热点

6月26日

18:02

AI Will@FinanceYF5

精选

独立研究者 Alexander Goslin 的论文 InfiniteDiffusion 被 SIGGRAPH 2026 接收。该论文提出两种贡献：InfiniteDiffusion 是面向扩散模型的无限图像生成方法，Terrain Diffusion 是首个基于学习型程序化地形生成器。作者在无经费、无导师、无团队的情况下，仅凭一块 RTX 3090 Ti 完成研究。论文展示了在无限场景生成和程序化地形建模上的突破。

论文 InfiniteDiffusion SIGGRAPH Terrain Diffusion 扩散模型程序化生成

推荐理由：一个人用一块显卡做出 SIGGRAPH 论文，InfiniteDiffusion 让扩散模型无限生成，Terrain Diffusion 是第一个能学的地形生成器，很厉害。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

20:29

AlphaSignal@AlphaSignalAI

精选

MPMWorlds是一个包含95,000个2D仿真视频的基准，覆盖液体、雪、沙子和弹性体。模型观看2.5秒场景后预测后续运动。代码生成方法能保持长期物理稳定性，但无法从帧中读取位置，隐藏坐标后精度骤降。扩散模型可捕获短期几何，但物体随时间消失、运动不真实。混合两种方法的简单门控机制超越单一模型。

论文 MPMWorlds 物理模拟代码生成扩散模型视频理解

推荐理由：这篇论文用MPMWorlds测试了AI看视频写物理代码的能力，发现代码生成稳但缺位置感知，扩散模型短时准但长期漂移，混合模型效果最好。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:37

Black Forest Labs (FLUX)@bfl_ml

精选

Black Forest Labs 创始人 Andi Blatt 在斯坦福 CS153 课程中，与 Anjney Midha 对谈视觉生成模型的演进路径。他回顾了从 GANs 到扩散模型再到 FLUX 的技术跃迁，强调从不可控到一致、可控视觉输出的关键突破。Blatt 还指出“具备行动能力的视觉系统”是下一代 AI 的重要方向，意味着视觉模型不再只是生成图像，而是能理解并驱动交互。这场分享为理解当前视觉 AI 前沿提供了技术脉络和产业视角。

AI模型视觉生成 FLUX 扩散模型 GANs 斯坦福

推荐理由：Blatt 把视觉生成从 GANs 到 FLUX 的演进脉络讲透了，做图像生成或视觉 AI 的开发者能从中看到技术拐点，值得花 10 分钟听一下。

原文

09:59

rohanpaul_ai@rohanpaul_ai

精选

atomic[.]chat 在单块 H100（FP8）上对比了 DiffusionGemma（扩散文本模型）与 Gemma4 26B A4B（自回归模型）。DiffusionGemma 速度是 Gemma4 的 4 倍，改变了错误分布模式。自回归模型逐 token 生成，速度慢但精度高；扩散模型批量生成 token 再迭代修正，因此响应更快。这一对比展示了扩散模型在本地推理中的速度优势，可能改变未来本地 LLM 的部署选择。

AI模型 DiffusionGemma Gemma4 本地推理扩散模型速度对比

推荐理由：本地运行 LLM 的开发者终于有了速度新选择——DiffusionGemma 的 4 倍加速意味着更流畅的交互体验，用 atomic[.]chat 的团队可以直接在单卡上体验，值得一试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:25

小互@imxiaohu

78°

Google 开源了 DiffusionGemma，一种基于扩散架构的语言模型，区别于逐词生成的 Transformer，它能一次性生成 256 个 tokens 的整块文本，再通过多轮迭代逐步优化。在 H100 上推理速度可达 1000+ tokens/s，RTX 5090 上 700+ tokens/s，26B 参数模型仅需 18GB 显存。其生成过程类似写草稿后反复修改，能自动修正前文错误，提升输出质量。这一开源模型为需要高吞吐、长文本生成的场景提供了新选择。

AI模型 Google DiffusionGemma 扩散模型开源/仓库文本生成

推荐理由：DiffusionGemma 解决了 Transformer 逐词生成速度慢、无法回头修改的痛点，做文本生成或长内容创作的开发者可以直接在消费级显卡上跑，体验 1000+ tokens/s 的生成速度。

原文

06:50

berryxia@berryxia

78°

Google 发布 DiffusionGemma，一种基于扩散模型的新型文本生成模型，速度可达 1000+ token/s，是传统自回归模型的 4 倍。它摒弃了逐词生成的方式，而是通过并行起草、纠错和精炼整段文本，实现高速生成。模型已以 Apache 2.0 协议开源，权重在 Hugging Face 上可获取，18GB 消费级显卡即可本地运行。该模型在代码、数学和复杂编辑任务上表现优异，支持实时补空、格式化和自我修复。这一发布可能颠覆文本生成的范式，从串行生成转向并行炼句。

AI模型扩散模型文本生成开源/仓库 Google 并行生成

推荐理由：DiffusionGemma 把文本生成速度拉到 4 倍，还彻底开源，做本地部署或加速日常 workflow 的开发者可以直接拖权重玩。

原文

02:00

rohanpaul_ai@rohanpaul_ai

83°

Google 发布了 DiffusionGemma，一个基于扩散模型的 26B 参数 MoE 开源语言模型，激活参数仅 3.8B。该模型采用 Apache 2.0 许可证，量化后可在 18GB VRAM 内运行。其核心优势在于并行生成 256 个 token，推理速度比传统自回归模型快 4 倍，在 H100 上可达 1000+ tokens/s，在 RTX 5090 上可达 700+ tokens/s。这解决了本地大模型推理慢的痛点，尤其适合单用户场景。

AI模型开源/仓库推理模型 MoE 扩散模型本地部署

推荐理由：本地 LLM 用户终于等来速度突破——DiffusionGemma 的并行生成机制让推理快 4 倍，做本地部署或边缘计算的开发者可以直接在 18GB 显存下体验，值得一试。

原文

01:49

Philipp Schmid@_philschmid

78°

DiffusionGemma 是基于 Gemma 4 构建的 26B MoE 扩散语言模型，推理时仅激活 3.8B 参数。它采用并行生成 256-token 块的方式，实现了每秒 1000+ tokens 的生成速度。量化后模型可适配 18 GB VRAM，且采用 Apache 2.0 开源协议。这一架构突破了传统自回归模型的生成瓶颈，为高效文本生成提供了新思路。

AI模型扩散模型 Gemma 4 MoE 高效推理开源/仓库

推荐理由：每秒 1000+ tokens 的生成速度让推理成本大幅降低，做大规模文本生成或实时应用的开发者值得关注，量化后 18GB VRAM 就能跑，门槛很低。

原文

01:33

Patrick Loeber@patloeber

Google 发布了 DiffusionGemma，一种基于扩散模型的文本生成新方法，相比传统自回归模型实现了4倍的速度提升。该模型已在 Hugging Face 上以 Apache 2.0 许可证开源，允许自由使用和修改。这一突破有望大幅降低文本生成的计算成本，对需要快速响应的应用场景尤为重要。开发者可以立即下载并集成到自己的项目中。

AI模型文本生成扩散模型开源/仓库 Google DiffusionGemma

推荐理由：文本生成速度提升4倍，对需要低延迟推理的开发者来说是个直接可用的利器，建议试试这个开源模型。

原文

00:33

elvis@omarsar0

Google DeepMind 推出 DiffusionGemma，一种基于扩散的新型开放模型，可在专用 GPU 上实现最高 4 倍的输出加速。与传统逐词预测不同，它同时生成整段文本，并能在生成过程中自我纠错和实时格式化复杂 Markdown。该模型权重已在 Hugging Face 上开放。这对于文本扩散领域的研究者来说是一个重要进展，因为该方向目前仍有大量未探索的研究问题。

AI模型扩散模型文本生成 Google DeepMind DiffusionGemma 开源/仓库

推荐理由：文本扩散模型的研究者终于有了一个强大的开放基线——DiffusionGemma 同时生成整段文本并支持实时纠错，做生成式 AI 研究的团队值得下载权重试试。

原文

6月6日

07:51

NVIDIA AI@NVIDIAAI

72°

NVIDIA Research 的 PixelDiT（像素扩散 Transformer）入选 CVPR2026 最佳论文候选。传统图像生成模型依赖预训练自编码器压缩图像后再进行扩散，导致质量损失累积。PixelDiT 完全移除这一步骤，直接在像素空间进行端到端扩散学习，是一种单阶段模型。该方法避免了压缩带来的信息丢失，有望提升生成图像的保真度和细节表现。这一创新为图像生成领域提供了新的技术路径。

论文图像生成扩散模型 PixelDiT NVIDIA CVPR

推荐理由：NVIDIA 的 PixelDiT 解决了传统扩散模型因预训练编码器压缩导致的质量损失问题，做图像生成的研究者和开发者值得关注——它可能改变现有生成流程的底层设计。

原文

6月4日

10:47

AK@_akhaliq

精选

这篇论文提出Bootstrap Your Generator方法，利用Flow Matching技术实现无配对视觉编辑。传统图像编辑需要成对数据，新方法仅需原始图像即可完成编辑。实验在多个数据集上验证，无需配对训练即可保持编辑效果。方法结合扩散模型与Flow Matching，在CelebA-HQ等基准上取得高质量结果。

论文 Flow Matching 视觉编辑无配对扩散模型

推荐理由：不用配对就能编辑图片，Flow Matching新招

原文

6月3日

16:51

向阳乔木@vista8

Laten Space 访谈了 Ethan He，分享了一系列关于 AI 模型训练与交互的深刻观点。他指出模型进步速度取决于团队迭代速度，质量提升更多来自修数据和训练流程中的 bug 而非新算法。视频模型训练需要极其详细的文本标注，GPT Image 生成图片时大部分时间在思考重写提示词。他还认为扩散模型将成为人机交互的前端层，在脑机接口普及前，最自然的交互方式是用户说话、AI 用生成式画面回应。

行业模型训练迭代速度 GPT Image 扩散模型人机交互

推荐理由：Ethan He 把模型训练和交互设计的底层逻辑讲透了，做模型训练或产品设计的开发者看完会有启发，特别是关于迭代速度和交互未来的观点值得反复琢磨。

原文

6月2日

12:10

Latent.Space@latentspacepod

精选

Ethan He 在 Latent Space 播客中分享了对视频生成、世界模型、LLM、智能体和持续学习的看法。他认为视频模型的大部分智能来自语言而非视频数据，idea-to-code 的速度已经很快，瓶颈在于计算资源。他强调迭代速度在模型开发中几乎压倒一切，下一个飞跃将是视频智能体而非更好的视频模型。他还预测扩散模型将成为 AGI 的前端，LLM 作为后端，生成式 UI 将取代 HTML/CSS，物理具身可能成为强大 AI 的工具。

AI模型视频生成世界模型智能体扩散模型 LLM

推荐理由：Ethan He 对 AI 前沿的预判直击要害，做视频生成、智能体或世界模型的开发者看完会有启发——尤其是关于迭代速度和智能体方向的洞察，值得点开细品。

原文

5月28日

19:58

rohanpaul_ai@rohanpaul_ai

研究发现图像扩散Transformer训练效率低下的根源在于残差连接，而非注意力或编码器。残差连接导致信号膨胀、梯度消失和特征冗余，尤其不适合扩散模型这种多步去噪任务。作者提出扩散自适应路由（Diffusion-Adaptive Routing），让每层根据去噪时间步动态选择前层输出，从而在相同图像质量下减少8.75倍训练迭代。该工作没有引入新数据集或注意力机制，而是质疑了从语言Transformer继承的残差结构。

论文扩散模型 Transformer 残差连接训练加速 DiT

推荐理由：扩散模型研究者终于找到了训练瓶颈的隐藏位置——残差连接，8.75倍加速意味着更低的训练成本，做图像生成的团队值得关注这个新路由方案。

原文

5月27日

07:22

berryxia@berryxia

PrismML 发布了 Bonsai Image 4B 扩散模型的 1-bit 和 Ternary 版本，分别仅 0.93GB 和 1.21GB，比全精度模型小 8.3 倍。在 Mac M4 Pro 上生成速度最高提升 5.6 倍，图像质量和提示词遵循度与更大模型相当。同时上线了 Bonsai Studio iOS App，支持 iPhone 本地离线生成图像，无需订阅或 API。这标志着高质量图像生成从云端真正走向个人设备。

AI模型端侧模型扩散模型图像生成模型压缩 PrismML

推荐理由：端侧生图终于不再妥协——Bonsai Image 4B 用极致压缩把云端级质量塞进手机，做移动端 AI 应用或离线创作工具的开发者可以直接在 iPhone 上试，无需联网和付费。

原文

5月20日

08:44

NVIDIA AI@NVIDIAAI

76°

NVIDIA 发布了 Nemotron-Labs-Diffusion 系列扩散语言模型，与传统逐 token 生成不同，该模型能在单次推理中并行生成多个 token，并支持在生成过程中进行修订。这种设计充分利用了现代 GPU 的并行计算能力，显著提升推理速度。模型系列包含 3B 到 14B 参数规模，并提供了视觉-语言变体。目前该模型已开源可用。

AI模型扩散模型并行生成 NVIDIA Nemotron 推理加速

推荐理由：NVIDIA 的扩散语言模型打破了传统逐 token 生成瓶颈，做推理加速或大模型部署的团队可以直接拿来提升 GPU 利用率，值得关注。

原文

5月15日

23:12

AlphaSignal@AlphaSignalAI

精选73°

研究人员提出Embedded Language Flows方法，让扩散模型在文本生成任务上仅需传统方法十分之一的数据量即可达到更优性能。该方法全程在连续嵌入空间操作，仅在最后一步将向量转换为单词，无需单独的解码器。通过预测干净嵌入而非噪声，并在训练中应用无分类器引导，该方法在语言基准测试中困惑度更低，并在翻译和摘要任务上超越自回归模型。这一成果挑战了“连续扩散在语言领域行不通”的普遍认知。

论文扩散模型文本生成连续嵌入 Embedded Language Flows NLP

推荐理由：扩散模型终于能高效处理文本了，做NLP或生成式AI的团队可以关注这个新范式——数据需求降低10倍，性能反而更好，值得一试。

原文

00:24

AK@_akhaliq

精选

AnyFlow 是一种新型视频扩散模型，支持任意步长的生成，通过策略流图蒸馏技术提升效率。该方法解决了传统视频扩散模型在步长选择上的限制，允许用户根据需求灵活调整生成速度和质量。关键创新在于在线策略流图蒸馏，使模型在训练和推理时都能适应不同步长。这项研究有望降低视频生成的计算成本，同时保持高质量输出。

论文视频生成扩散模型蒸馏 AnyFlow 策略流图

推荐理由：视频生成开发者终于有了灵活控制步长的方案——AnyFlow 让生成速度和质量可调，做视频 AI 的团队值得关注，能显著降低推理成本。

原文