做可解释性研究或SAE应用的团队,这篇论文直接点出了特征死亡的根因和解决方案——均值中心化就能大幅提升字典利用率,值得在实验中验证。
稀疏自编码器(SAE)将神经网络激活分解为可解释特征,但许多学习到的特征从未激活,即“特征死亡”问题,浪费字典容量并可能重新引入叠加。不同模型中特征死亡率差异巨大:GPT-2接近零,而AlphaFold3在相同配置下超过70%。研究发现,维度级激活异常值(维度均值远大于逐token变化)通过初始化时基于特征与激活均值的对齐程度改变预激活值,导致与均值反对齐的特征永久获得负预激活而永不激活。研究者形式化了异常严重程度γ=||μ||/||σ||,该指标在454个模型-层组合(涵盖语言、视觉、蛋白质和基因组模型)中预测初始死亡率(TopK的Spearman ρ=0.89,ReLU的ρ=0.82)。死亡特征可在训练中复活,但需要SAE偏置学习激活均值,在高γ下过程极慢。均值中心化(减去激活均值)可绕过此问题,消除所有测试模型中的异常诱导死亡,为预处理步骤的必要性提供了原理基础。
稀疏自编码器(SAE)将神经网络激活分解为可解释特征,但许多学习到的特征从未激活,即“特征死亡”问题,浪费字典容量并可能重新引入叠加。不同模型中特征死亡率差异巨大:GPT-2接近零,而AlphaFold3在相同配置下超过70%。研究发现,维度级激活异常值(维度均值远大于逐token变化)通过初始化时基于特征与激活均值的对齐程度改变预激活值,导致与均值反对齐的特征永久获得负预激活而永不激活。研究者形式化了异常严重程度γ=||μ||/||σ||,该指标在454个模型-层组合(涵盖语言、视觉、蛋白质和基因组模型)中预测初始死亡率(TopK的Spearman ρ=0.89,ReLU的ρ=0.82)。死亡特征可在训练中复活,但需要SAE偏置学习激活均值,在高γ下过程极慢。均值中心化(减去激活均值)可绕过此问题,消除所有测试模型中的异常诱导死亡,为预处理步骤的必要性提供了原理基础。
Sparse autoencoders (SAEs) decompose neural network activations into interpretable features, but many learned features never activate, a problem called feature death that wastes dictionary capacity and can reintroduce su…