论文精选

Tensor Similarity:衡量神经网络是否真正等价的新方法

When Are Two Networks the Same? Tensor Similarity for Mechanistic Interpretability

精选理由

做可解释性研究的团队终于有了一个不依赖经验近似、能真正衡量网络等价性的工具,值得关注。

AI 摘要

这篇论文提出了一种新的权重度量方法——张量相似性(Tensor Similarity),用于判断两个神经网络是否实现相同的计算。现有方法要么依赖经验行为(对分布外机制不敏感),要么依赖基依赖参数(忽略权重空间对称性)。新方法通过递归算法捕捉跨层机制,对权重空间对称性保持不变,从而更准确地衡量全局功能等价性。实验表明,张量相似性在追踪训练动态(如grokking和后门插入)方面优于现有指标。这项工作将相似性测量和忠实性验证从经验近似问题转化为可解的代数问题。

AI 翻译 · 中文

这篇论文提出了一种新的权重度量方法——张量相似性(Tensor Similarity),用于判断两个神经网络是否实现相同的计算。现有方法要么依赖经验行为(对分布外机制不敏感),要么依赖基依赖参数(忽略权重空间对称性)。新方法通过递归算法捕捉跨层机制,对权重空间对称性保持不变,从而更准确地衡量全局功能等价性。实验表明,张量相似性在追踪训练动态(如grokking和后门插入)方面优于现有指标。这项工作将相似性测量和忠实性验证从经验近似问题转化为可解的代数问题。

arXiv cs.LGMechanistic interpretability aims to break models into meaningful parts; verifying that two such parts implement the same computation is a prerequisite. Existing similarity measures evaluate either empirical behaviour, l