DifFRACT:面向电路追踪的扩散特征重建与归因

DifFRACT: Diffusion Feature Reconstruction and Attribution for Circuit Tracing

精选理由

这篇论文教你如何用转码器给FLUX.1模型做电路追踪,比稀疏自编码器更准确,能解释图像生成中的属性绑定错误。

AI 摘要

该论文将基于转码器的电路追踪扩展至多模态扩散Transformer,训练时间步条件转码器以逼近FLUX.1[schnell]中MLP子层的输入输出行为。通过替换MLP并线性化剩余计算,实现了精确的特征到特征归因并恢复紧凑可解释电路。在稀疏性-忠实度权衡上,转码器匹配或略优于稀疏自编码器。所得电路揭示了属性绑定和跨流语义传播机制,为系统生成误差提供了因果解释,且基于电路的干预比标准SAE干预更精准有效。

AI 翻译 · 中文

该论文将基于转码器的电路追踪扩展至多模态扩散Transformer,训练时间步条件转码器以逼近FLUX.1[schnell]中MLP子层的输入输出行为。通过替换MLP并线性化剩余计算,实现了精确的特征到特征归因并恢复紧凑可解释电路。在稀疏性-忠实度权衡上,转码器匹配或略优于稀疏自编码器。所得电路揭示了属性绑定和跨流语义传播机制,为系统生成误差提供了因果解释,且基于电路的干预比标准SAE干预更精准有效。

arXiv cs.AIMechanistic interpretability seeks to explain neural network behavior by decomposing model computations into interpretable features and circuits. While transcoder-based circuit tracing has recently enabled detailed causa