稀疏自编码器(Sparse Autoencoder, SAE)是当前可解释性研究的核心工具之一,旨在将神经网络内部激活分解为稀疏、可解释的特征。近期,SAE的应用从语言模型扩展到视觉-语言动作模型,其可靠性问题也引发关注。
- 主要进展
- SAE引导训练数据筛选:一项研究提出SAERL方法,利用SAE提取的稀疏特征指导后训练数据工程,通过捕捉模型内部信号自动选择高质量训练样本,提升LLM对齐效果。([SAERL:用稀疏自编码器内部信号指导LLM后训练数据工程)
- 基准测试可靠性受质疑:SAEBench的两项核心指标(SUCCESS和COMP)被指无法有效评估SAE质量,可能造成误导。这一发现挑战了现有SAE评估体系的有效性。([稀疏自编码器基准测试可靠吗?SAEBench 两项核心指标被指失效)
- 行为级可解释性突破:事件锚定稀疏自编码器(Event-Anchored SAE)被用于视觉-语言动作模型(VLA),将连续观测序列中的关键事件识别为稀疏特征,为机器人策略提供行为级因果解释。([事件锚定稀疏自编码器:为VLA策略提供行为级可解释性)
- 自注意力机制与过采样研究:Anthropic的更新阐述了“继任头”(succession heads)现象,并指出SAE过采样可能导致特征碎片化;同时探索了视觉特征字典的初始化方法。([Transformer Circuits 九月更新:继任头与 SAE 过采样研究)
- 忠实性问题建模:通过玩具模型模拟transcoder(类SAE结构)在稀疏性约束下的不忠实表现,指出机械论解释可能不可靠,强调SAE需更严格的忠实性验证。([机械论(不)忠实性的玩具模型:transcoder 出错时)
当前焦点
争议核心在于SAE的忠实性与评估标准。一方面,SAE在多个场景展现了揭示内部机制的能力;另一方面,基准测试失效和忠实性问题对SAE的可信度构成挑战。此外,SAE在VLA等新模态的应用扩展了其适用范围。
未来观察点
SAE基准测试的改进方案、忠实性约束的理论突破,以及SAE是否能在复杂多模态模型中保持可解释性,将是关键研究方向。