№circuits·general

Circuits

别名

§ 01综述

Circuits（电路）在 AI 可解释性领域特指 Transformer 内部机制的逆向工程研究。Anthropic 的 Transformer Circuits 团队持续输出方法论与实证进展，近期焦点集中在稀疏自编码器（SAE）的改进与跨模型比较。

可解释性评估与自解释复现：团队提出用 SAE 特征直接作为分类器，发现比原始激活更准确，并强调复现性（Features as Classifiers）。

模型差异分析：引入阶段式字典微调（Model Diffing）和交叉编码器（Crosscoder）来系统比较不同模型内部表示，揭示训练过程带来的特征演化。

注意力机制与越狱行为：最新注意力更新和四月更新中，团队探索了注意力头在越狱攻击中的作用，并发现密集特征可能被分散表示（Attention Update；April Update）。

当前焦点在于如何将电路分析从单一模型扩展到多模型对比，同时处理过采样和干扰权重等工程挑战。未来观察点：SAE 改进能否使电路研究更自动化，以及可解释性发现能否用于指导模型安全。

§ 02相关报道10 条在档

§ 03邻近话题