全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月26日

12:20

12:20

arXiv cs.LG@Sanghyun Lee, Chunsan Hong, Seungryong Kim, Jonghyun Lee, Jongho Park, Dongmin Park

精选

本文提出 LoopMDM（Looped Masked Diffusion Model），通过在掩码扩散模型的早期-中间层选择性循环，显著提升训练效率和模型性能。训练时循环层产生深度缩放效果而不增加参数，推理时可变循环次数实现灵活计算缩放。在多个预训练语料上，LoopMDM 匹配同尺寸 MDM 性能但节省高达 3.3 倍训练 FLOPs，在 GSM8K 等推理基准上提升最多 8.5 分，甚至超越更深层非循环模型。注意力分析表明，循环促进了掩码位置间的交互。代码和权重将开源。

论文掩码扩散模型 Transformer架构训练效率推理缩放开源/仓库

推荐理由：做扩散语言模型或高效 Transformer 架构的开发者值得关注——LoopMDM 用简单循环层技巧同时省训练算力、提推理性能，直接可复现。