精选理由
解析扩散模型真实解码行为
论文对DiffusionGemma 26B(基于Gemma 4的掩码离散扩散MoE模型)进行解码顺序测量,在686-prompt六场景测试中发现其提交令牌既非并行也非块自回归,而是部分从左到右偏置。偏置强度随分析粒度平滑增强,块大小实为测量伪像而非架构属性。模型以大批量同时提交令牌,批量内顺序多数未定义,行为依赖场景:结构化JSON提交顺序任意,数学推理中位置置信度与正确性相关但事实回忆无信号。提交在预算内晚期爆发,任务准确率与自回归Gemma 4相当。核心贡献是方法论:正确测量需处理尾部EOS填充、场景混淆、提交非单调性、块大小敏感性和大批量平局等混淆因素。
AI 翻译 · 中文
论文对DiffusionGemma 26B(基于Gemma 4的掩码离散扩散MoE模型)进行解码顺序测量,在686-prompt六场景测试中发现其提交令牌既非并行也非块自回归,而是部分从左到右偏置。偏置强度随分析粒度平滑增强,块大小实为测量伪像而非架构属性。模型以大批量同时提交令牌,批量内顺序多数未定义,行为依赖场景:结构化JSON提交顺序任意,数学推理中位置置信度与正确性相关但事实回忆无信号。提交在预算内晚期爆发,任务准确率与自回归Gemma 4相当。核心贡献是方法论:正确测量需处理尾部EOS填充、场景混淆、提交非单调性、块大小敏感性和大批量平局等混淆因素。
Open diffusion language models are marketed as parallel, non-autoregressive decoders, yet the order in which a shipped checkpoint actually commits its tokens is almost never measured. We instrument DiffusionGemma 26B, a …