稀疏自编码器

§ 01综述

稀疏自编码器（Sparse Autoencoder, SAE）是当前可解释性研究的核心工具之一，旨在将神经网络内部激活分解为稀疏、可解释的特征。近期，SAE的应用从语言模型扩展到视觉-语言动作模型，其可靠性问题也引发关注。

主要进展

SAE引导训练数据筛选：一项研究提出SAERL方法，利用SAE提取的稀疏特征指导后训练数据工程，通过捕捉模型内部信号自动选择高质量训练样本，提升LLM对齐效果。([SAERL：用稀疏自编码器内部信号指导LLM后训练数据工程)
基准测试可靠性受质疑：SAEBench的两项核心指标（SUCCESS和COMP）被指无法有效评估SAE质量，可能造成误导。这一发现挑战了现有SAE评估体系的有效性。([稀疏自编码器基准测试可靠吗？SAEBench 两项核心指标被指失效)
行为级可解释性突破：事件锚定稀疏自编码器（Event-Anchored SAE）被用于视觉-语言动作模型（VLA），将连续观测序列中的关键事件识别为稀疏特征，为机器人策略提供行为级因果解释。([事件锚定稀疏自编码器：为VLA策略提供行为级可解释性)
自注意力机制与过采样研究：Anthropic的更新阐述了“继任头”（succession heads）现象，并指出SAE过采样可能导致特征碎片化；同时探索了视觉特征字典的初始化方法。([Transformer Circuits 九月更新：继任头与 SAE 过采样研究)
忠实性问题建模：通过玩具模型模拟transcoder（类SAE结构）在稀疏性约束下的不忠实表现，指出机械论解释可能不可靠，强调SAE需更严格的忠实性验证。([机械论（不）忠实性的玩具模型：transcoder 出错时)

当前焦点
争议核心在于SAE的忠实性与评估标准。一方面，SAE在多个场景展现了揭示内部机制的能力；另一方面，基准测试失效和忠实性问题对SAE的可信度构成挑战。此外，SAE在VLA等新模态的应用扩展了其适用范围。

未来观察点
SAE基准测试的改进方案、忠实性约束的理论突破，以及SAE是否能在复杂多模态模型中保持可解释性，将是关键研究方向。

§ 02相关报道10 条在档

§ 03邻近话题