11:11arXiv cs.LG@Naiyu Yin, Dennis Wei, Tian Gao, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy, Yue Yu论文针对LLM电路学习中原始神经元多义性和SAE特征高维度的计算瓶颈,提出基于稀疏线性回归的CircuitLasso方法。在基准数据上,CircuitLasso恢复电路的结构准确性与最先进的干预方法相当,但计算成本大幅降低。它还能高效揭示SAE特征之间的传播关系,展示可解释语义特征如何影响模型预测。在领域泛化任务中,利用CircuitLasso学到的电路洞见,能以更低成本达到可比性能。论文CircuitLassoLLMSAE机制可解释性电路学习推荐理由:这篇论文提出了CircuitLasso,能以更低成本达到和现有方法一样好的电路学习效果,还能揭示可解释的语义特征如何传播。原文