12:37arXiv cs.AI@Gleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov精选该研究系统分析了稀疏自编码器(SAE)在不同训练种子下特征的稳定性。研究发现,稳定特征承载了大部分重构和预测相关的信号,而不稳定特征个体不可复现但集中在可复现的低秩子空间中,表明种子依赖性更多反映激活空间内的基模糊性而非纯噪声。通过跨种子聚合独特特征,可以在保持解释方差的同时构建更稳定的SAE。该工作为理解SAE的可靠性提供了新视角。论文稀疏自编码器特征稳定性可解释性子空间神经网络推荐理由:做神经网络可解释性研究的团队会关心——SAE特征不稳定不是噪声,而是低维结构的基选择问题,看完能帮你更合理设计实验和解读结果。原文