论文精选

稀疏自编码器特征稳定性研究:不稳定特征反映可复现子空间

Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

精选理由

做神经网络可解释性研究的团队会关心——SAE特征不稳定不是噪声,而是低维结构的基选择问题,看完能帮你更合理设计实验和解读结果。

AI 摘要

该研究系统分析了稀疏自编码器(SAE)在不同训练种子下特征的稳定性。研究发现,稳定特征承载了大部分重构和预测相关的信号,而不稳定特征个体不可复现但集中在可复现的低秩子空间中,表明种子依赖性更多反映激活空间内的基模糊性而非纯噪声。通过跨种子聚合独特特征,可以在保持解释方差的同时构建更稳定的SAE。该工作为理解SAE的可靠性提供了新视角。

AI 翻译 · 中文

该研究系统分析了稀疏自编码器(SAE)在不同训练种子下特征的稳定性。研究发现,稳定特征承载了大部分重构和预测相关的信号,而不稳定特征个体不可复现但集中在可复现的低秩子空间中,表明种子依赖性更多反映激活空间内的基模糊性而非纯噪声。通过跨种子聚合独特特征,可以在保持解释方差的同时构建更稳定的SAE。该工作为理解SAE的可靠性提供了新视角。

arXiv cs.AISparse autoencoders (SAEs) are widely used to interpret neural network representations, but their utility depends on whether the learned features are reproducible across training runs. We study this question through \emp