DifFRACT：面向电路追踪的扩散特征重建与归因

精选理由

这篇论文教你如何用转码器给FLUX.1模型做电路追踪，比稀疏自编码器更准确，能解释图像生成中的属性绑定错误。

AI 摘要

该论文将基于转码器的电路追踪扩展至多模态扩散Transformer，训练时间步条件转码器以逼近FLUX.1[schnell]中MLP子层的输入输出行为。通过替换MLP并线性化剩余计算，实现了精确的特征到特征归因并恢复紧凑可解释电路。在稀疏性-忠实度权衡上，转码器匹配或略优于稀疏自编码器。所得电路揭示了属性绑定和跨流语义传播机制，为系统生成误差提供了因果解释，且基于电路的干预比标准SAE干预更精准有效。

AI 翻译 · 中文

arXiv cs.AIMechanistic interpretability seeks to explain neural network behavior by decomposing model computations into interpretable features and circuits. While transcoder-based circuit tracing has recently enabled detailed causa…

阅读原文