DiffusionGemma 推理透明度研究：不透明性可降至接近 Gemma 4

精选理由

Google 团队这篇论文解释 DiffusionGemma 的推理黑箱有多大，发现能用 token 瓶颈把深度压到几乎和 Gemma 4 一样，还发现了扩散模型特有的奇怪推理方式。

AI 摘要

论文分析 DiffusionGemma 的推理透明度，将其分解为变量透明度和算法透明度。初始发现 DiffusionGemma 的不透明串行深度是自回归 Gemma 4 的 28.6 倍。但通过可解释的 token 瓶颈映射信息流，可将不透明串行深度降至仅 Gemma 4 的 1.1 倍。算法透明度方面，扩散模型因每步所有 token 可变化而更复杂，研究识别了非时间顺序推理、token 与序列涂抹、中间上下文推理等新现象。可监控性测试表明 DiffusionGemma 与 Gemma 4 水平相当。

AI 翻译 · 中文

arXiv cs.AILLM reasoning transparency is a critical affordance for understanding model decisions, mitigating misuse and misalignment, and debugging surprising model behaviors. However, DiffusionGemma performs a larger fraction of i…

@atomic_chat_hq06-18 05:03原文
SuperTechFans06-16 23:26原文
Philipp Schmid06-17 14:44原文

阅读原文