circuits·general

Circuits

别名
首次出现
2026-05-22
最近出现
2026-06-02
累计提及
27
§ 01综述

Circuits(电路)在 AI 可解释性领域特指 Transformer 内部机制的逆向工程研究。Anthropic 的 Transformer Circuits 团队持续输出方法论与实证进展,近期焦点集中在稀疏自编码器(SAE)的改进与跨模型比较。

  • 可解释性评估与自解释复现:团队提出用 SAE 特征直接作为分类器,发现比原始激活更准确,并强调复现性(Features as Classifiers)。
  • 模型差异分析:引入阶段式字典微调(Model Diffing)和交叉编码器(Crosscoder)来系统比较不同模型内部表示,揭示训练过程带来的特征演化。
  • 注意力机制与越狱行为:最新注意力更新和四月更新中,团队探索了注意力头在越狱攻击中的作用,并发现密集特征可能被分散表示(Attention UpdateApril Update)。
  • 当前焦点在于如何将电路分析从单一模型扩展到多模型对比,同时处理过采样和干扰权重等工程挑战。未来观察点:SAE 改进能否使电路研究更自动化,以及可解释性发现能否用于指导模型安全。

    § 02相关报道10 条在档
    1. 01
      Transformer Circuits 八月更新:可解释性评估与自解释复现
      Anthropic: Transformer Circuits
    2. 02
      Transformer Circuits 九月更新:继任头与 SAE 过采样研究
      Anthropic: Transformer Circuits
    3. 03
      用字典学习特征做分类器:比原始激活更准
      Anthropic: Transformer Circuits
    4. 04
      阶段式模型差异分析:通过字典微调进行模型对比的初步研究
      Anthropic: Transformer Circuits
    5. 05
      Circuits Updates: 字典学习优化技术汇总
      Anthropic: Transformer Circuits
    6. 06
      Crosscoder 模型差异分析:用交叉编码器比较模型
      Anthropic: Transformer Circuits
    7. 07
      Anthropic 发布注意力机制研究进展
      Anthropic: Transformer Circuits
    8. 08
      Circuits Updates:2025年4月——越狱、密集特征与可解释性入门
      Anthropic: Transformer Circuits
    9. 09
      Transformer Circuits 七月更新:可解释性框架与生物学应用
      Anthropic: Transformer Circuits
    10. 10
      干扰权重的玩具模型:深入理解Transformer内部机制
      Anthropic: Transformer Circuits
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/Circuits