激活异常值与稀疏自编码器特征死亡的关系研究

精选理由

做可解释性研究或SAE应用的团队，这篇论文直接点出了特征死亡的根因和解决方案——均值中心化就能大幅提升字典利用率，值得在实验中验证。

AI 摘要

稀疏自编码器（SAE）将神经网络激活分解为可解释特征，但许多学习到的特征从未激活，即“特征死亡”问题，浪费字典容量并可能重新引入叠加。不同模型中特征死亡率差异巨大：GPT-2接近零，而AlphaFold3在相同配置下超过70%。研究发现，维度级激活异常值（维度均值远大于逐token变化）通过初始化时基于特征与激活均值的对齐程度改变预激活值，导致与均值反对齐的特征永久获得负预激活而永不激活。研究者形式化了异常严重程度γ=||μ||/||σ||，该指标在454个模型-层组合（涵盖语言、视觉、蛋白质和基因组模型）中预测初始死亡率（TopK的Spearman ρ=0.89，ReLU的ρ=0.82）。死亡特征可在训练中复活，但需要SAE偏置学习激活均值，在高γ下过程极慢。均值中心化（减去激活均值）可绕过此问题，消除所有测试模型中的异常诱导死亡，为预处理步骤的必要性提供了原理基础。

AI 翻译 · 中文

arXiv cs.LGSparse autoencoders (SAEs) decompose neural network activations into interpretable features, but many learned features never activate, a problem called feature death that wastes dictionary capacity and can reintroduce su…

阅读原文