精选理由
Google 团队这篇论文解释 DiffusionGemma 的推理黑箱有多大,发现能用 token 瓶颈把深度压到几乎和 Gemma 4 一样,还发现了扩散模型特有的奇怪推理方式。
论文分析 DiffusionGemma 的推理透明度,将其分解为变量透明度和算法透明度。初始发现 DiffusionGemma 的不透明串行深度是自回归 Gemma 4 的 28.6 倍。但通过可解释的 token 瓶颈映射信息流,可将不透明串行深度降至仅 Gemma 4 的 1.1 倍。算法透明度方面,扩散模型因每步所有 token 可变化而更复杂,研究识别了非时间顺序推理、token 与序列涂抹、中间上下文推理等新现象。可监控性测试表明 DiffusionGemma 与 Gemma 4 水平相当。
AI 翻译 · 中文
论文分析 DiffusionGemma 的推理透明度,将其分解为变量透明度和算法透明度。初始发现 DiffusionGemma 的不透明串行深度是自回归 Gemma 4 的 28.6 倍。但通过可解释的 token 瓶颈映射信息流,可将不透明串行深度降至仅 Gemma 4 的 1.1 倍。算法透明度方面,扩散模型因每步所有 token 可变化而更复杂,研究识别了非时间顺序推理、token 与序列涂抹、中间上下文推理等新现象。可监控性测试表明 DiffusionGemma 与 Gemma 4 水平相当。
LLM reasoning transparency is a critical affordance for understanding model decisions, mitigating misuse and misalignment, and debugging surprising model behaviors. However, DiffusionGemma performs a larger fraction of i…