全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

11:12

11:12

arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi

论文对DiffusionGemma 26B（基于Gemma 4的掩码离散扩散MoE模型）进行解码顺序测量，在686-prompt六场景测试中发现其提交令牌既非并行也非块自回归，而是部分从左到右偏置。偏置强度随分析粒度平滑增强，块大小实为测量伪像而非架构属性。模型以大批量同时提交令牌，批量内顺序多数未定义，行为依赖场景：结构化JSON提交顺序任意，数学推理中位置置信度与正确性相关但事实回忆无信号。提交在预算内晚期爆发，任务准确率与自回归Gemma 4相当。核心贡献是方法论：正确测量需处理尾部EOS填充、场景混淆、提交非单调性、块大小敏感性和大批量平局等混淆因素。

论文 DiffusionGemma Gemma 4 掩码扩散模型解码顺序 MoE

推荐理由：解析扩散模型真实解码行为

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月26日

12:20

12:20

arXiv cs.LG@Sanghyun Lee, Chunsan Hong, Seungryong Kim, Jonghyun Lee, Jongho Park, Dongmin Park

精选

本文提出 LoopMDM（Looped Masked Diffusion Model），通过在掩码扩散模型的早期-中间层选择性循环，显著提升训练效率和模型性能。训练时循环层产生深度缩放效果而不增加参数，推理时可变循环次数实现灵活计算缩放。在多个预训练语料上，LoopMDM 匹配同尺寸 MDM 性能但节省高达 3.3 倍训练 FLOPs，在 GSM8K 等推理基准上提升最多 8.5 分，甚至超越更深层非循环模型。注意力分析表明，循环促进了掩码位置间的交互。代码和权重将开源。

论文掩码扩散模型 Transformer架构训练效率推理缩放开源/仓库

推荐理由：做扩散语言模型或高效 Transformer 架构的开发者值得关注——LoopMDM 用简单循环层技巧同时省训练算力、提推理性能，直接可复现。