DiffusionGemma解码顺序测量：既非并行也非顺序

精选理由

解析扩散模型真实解码行为

AI 摘要

论文对DiffusionGemma 26B（基于Gemma 4的掩码离散扩散MoE模型）进行解码顺序测量，在686-prompt六场景测试中发现其提交令牌既非并行也非块自回归，而是部分从左到右偏置。偏置强度随分析粒度平滑增强，块大小实为测量伪像而非架构属性。模型以大批量同时提交令牌，批量内顺序多数未定义，行为依赖场景：结构化JSON提交顺序任意，数学推理中位置置信度与正确性相关但事实回忆无信号。提交在预算内晚期爆发，任务准确率与自回归Gemma 4相当。核心贡献是方法论：正确测量需处理尾部EOS填充、场景混淆、提交非单调性、块大小敏感性和大批量平局等混淆因素。

AI 翻译 · 中文

arXiv cs.LGOpen diffusion language models are marketed as parallel, non-autoregressive decoders, yet the order in which a shipped checkpoint actually commits its tokens is almost never measured. We instrument DiffusionGemma 26B, a …

LMSYS Org (SGLang)06-12 04:04原文
SiliconFlowAI06-11 16:24原文
rohanpaul_ai06-12 01:59原文
vLLM06-12 04:10原文
karminski-牙医 (AI工具)06-12 04:31原文

阅读原文