DiffusionGemma解码顺序测量:既非并行也非顺序

Neither Parallel Nor Sequential: How DiffusionGemma Actually Commits Tokens

精选理由

解析扩散模型真实解码行为

AI 摘要

论文对DiffusionGemma 26B(基于Gemma 4的掩码离散扩散MoE模型)进行解码顺序测量,在686-prompt六场景测试中发现其提交令牌既非并行也非块自回归,而是部分从左到右偏置。偏置强度随分析粒度平滑增强,块大小实为测量伪像而非架构属性。模型以大批量同时提交令牌,批量内顺序多数未定义,行为依赖场景:结构化JSON提交顺序任意,数学推理中位置置信度与正确性相关但事实回忆无信号。提交在预算内晚期爆发,任务准确率与自回归Gemma 4相当。核心贡献是方法论:正确测量需处理尾部EOS填充、场景混淆、提交非单调性、块大小敏感性和大批量平局等混淆因素。

AI 翻译 · 中文

论文对DiffusionGemma 26B(基于Gemma 4的掩码离散扩散MoE模型)进行解码顺序测量,在686-prompt六场景测试中发现其提交令牌既非并行也非块自回归,而是部分从左到右偏置。偏置强度随分析粒度平滑增强,块大小实为测量伪像而非架构属性。模型以大批量同时提交令牌,批量内顺序多数未定义,行为依赖场景:结构化JSON提交顺序任意,数学推理中位置置信度与正确性相关但事实回忆无信号。提交在预算内晚期爆发,任务准确率与自回归Gemma 4相当。核心贡献是方法论:正确测量需处理尾部EOS填充、场景混淆、提交非单调性、块大小敏感性和大批量平局等混淆因素。

arXiv cs.LGOpen diffusion language models are marketed as parallel, non-autoregressive decoders, yet the order in which a shipped checkpoint actually commits its tokens is almost never measured. We instrument DiffusionGemma 26B, a
  • LMSYS Org (SGLang)06-12 04:04原文
  • SiliconFlowAI06-11 16:24原文
  • rohanpaul_ai06-12 01:59原文
  • vLLM06-12 04:10原文
  • karminski-牙医 (AI工具)06-12 04:31原文