揭示LLM电路发现中的方差根源：新方法CEAP

精选理由

这篇论文把电路发现中的方差问题讲透了，还提出了带理论保证的CEAP方法，能减少重采样方差，值得看。

AI 摘要

电路发现是机械可解释性中的关键技术，用于定位执行特定任务的关键模型组件。现有最先进方法EAP-IG在忠信度指标上表现良好，但存在三种方差：重采样方差（用同分布新数据探测时电路变化）、重述方差（提示重新措辞时电路偏移）和样本级方差（低总体不忠信度的电路在单个样本上大幅波动）。本文提出的CEAP方法基于理论保证，能显著减少重采样方差。研究还表明，重述方差源于不同模板激活不同电路，暗示LLM可能本质难以控制。样本级方差主要良性，极差的不忠信度分数常由定义方式或选择性贡献缩放机制导致。

AI 翻译 · 中文

arXiv cs.LGCircuit discovery is a key technique in mechanistic interpretability to pinpoint the model components that are crucial for performing a given task. Although the current state-of-the-art method (EAP-IG) performs well on t…

阅读原文