揭示LLM电路发现中的方差根源:新方法CEAP

Demystifying Variance in Circuit Discovery of LLMs

精选理由

这篇论文把电路发现中的方差问题讲透了,还提出了带理论保证的CEAP方法,能减少重采样方差,值得看。

AI 摘要

电路发现是机械可解释性中的关键技术,用于定位执行特定任务的关键模型组件。现有最先进方法EAP-IG在忠信度指标上表现良好,但存在三种方差:重采样方差(用同分布新数据探测时电路变化)、重述方差(提示重新措辞时电路偏移)和样本级方差(低总体不忠信度的电路在单个样本上大幅波动)。本文提出的CEAP方法基于理论保证,能显著减少重采样方差。研究还表明,重述方差源于不同模板激活不同电路,暗示LLM可能本质难以控制。样本级方差主要良性,极差的不忠信度分数常由定义方式或选择性贡献缩放机制导致。

AI 翻译 · 中文

电路发现是机械可解释性中的关键技术,用于定位执行特定任务的关键模型组件。现有最先进方法EAP-IG在忠信度指标上表现良好,但存在三种方差:重采样方差(用同分布新数据探测时电路变化)、重述方差(提示重新措辞时电路偏移)和样本级方差(低总体不忠信度的电路在单个样本上大幅波动)。本文提出的CEAP方法基于理论保证,能显著减少重采样方差。研究还表明,重述方差源于不同模板激活不同电路,暗示LLM可能本质难以控制。样本级方差主要良性,极差的不忠信度分数常由定义方式或选择性贡献缩放机制导致。

arXiv cs.LGCircuit discovery is a key technique in mechanistic interpretability to pinpoint the model components that are crucial for performing a given task. Although the current state-of-the-art method (EAP-IG) performs well on t