精选理由
这篇论文教你如何用转码器给FLUX.1模型做电路追踪,比稀疏自编码器更准确,能解释图像生成中的属性绑定错误。
该论文将基于转码器的电路追踪扩展至多模态扩散Transformer,训练时间步条件转码器以逼近FLUX.1[schnell]中MLP子层的输入输出行为。通过替换MLP并线性化剩余计算,实现了精确的特征到特征归因并恢复紧凑可解释电路。在稀疏性-忠实度权衡上,转码器匹配或略优于稀疏自编码器。所得电路揭示了属性绑定和跨流语义传播机制,为系统生成误差提供了因果解释,且基于电路的干预比标准SAE干预更精准有效。
AI 翻译 · 中文
该论文将基于转码器的电路追踪扩展至多模态扩散Transformer,训练时间步条件转码器以逼近FLUX.1[schnell]中MLP子层的输入输出行为。通过替换MLP并线性化剩余计算,实现了精确的特征到特征归因并恢复紧凑可解释电路。在稀疏性-忠实度权衡上,转码器匹配或略优于稀疏自编码器。所得电路揭示了属性绑定和跨流语义传播机制,为系统生成误差提供了因果解释,且基于电路的干预比标准SAE干预更精准有效。
Mechanistic interpretability seeks to explain neural network behavior by decomposing model computations into interpretable features and circuits. While transcoder-based circuit tracing has recently enabled detailed causa…