10:40arXiv cs.LG@Nathanaël Jacquier, Maria Vakalopoulou, Mahdi S. Hosseini这篇论文提出两种可与Top-k稀疏自编码器架构兼容的稀疏正则化方法:对未选中单元的L1惩罚和尺度不变的L1/L2比率惩罚。在2个数据集、3个视觉基础模型和多种k值下,两种正则化均一致改善单语义性而不降低重构质量。L1/L2惩罚进一步将信息集中到更少潜在单元中,使重构对推理时k的选择更具鲁棒性,并提升小预算线性探测性能。核心发现是硬性架构稀疏性与软性稀疏正则化互补而非互斥。论文Top-k SAE稀疏自编码器可解释性视觉基础模型正则化推荐理由:这篇论文给Top-k稀疏自编码器加了两种正则化方法,能让模型更可解释而且重构质量不降,值得做可解释性的人看看。原文
12:37arXiv cs.AI@Gleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov精选该研究系统分析了稀疏自编码器(SAE)在不同训练种子下特征的稳定性。研究发现,稳定特征承载了大部分重构和预测相关的信号,而不稳定特征个体不可复现但集中在可复现的低秩子空间中,表明种子依赖性更多反映激活空间内的基模糊性而非纯噪声。通过跨种子聚合独特特征,可以在保持解释方差的同时构建更稳定的SAE。该工作为理解SAE的可靠性提供了新视角。论文稀疏自编码器特征稳定性可解释性子空间神经网络推荐理由:做神经网络可解释性研究的团队会关心——SAE特征不稳定不是噪声,而是低维结构的基选择问题,看完能帮你更合理设计实验和解读结果。原文
11:36arXiv cs.LG@Grégoire Dhimoïla, Victor Boutin, Agustin Martin Picard, Thomas Fel, Thomas Serre精选本文提出一个统一框架,将概念对齐分解为“对齐什么”(表征 vs 概念)和“对齐层级”(实例级 vs 分布级)两个维度,从而定义四种属性。作者发现现有方法常混淆这些属性,优化一个目标并不能可靠恢复其他目标。他们引入 InterVenchA 基准来独立测量提取质量、翻译质量和概念一致性。最后提出 CoSAE(耦合稀疏自编码器),联合强制执行互补的对齐目标,仅需 0.1% 配对数据即可在分布目标锚定下恢复实例级对齐。这项工作表明概念对齐本质上是多目标优化问题,需要明确定义、测量和优化。论文表征对齐概念分解稀疏自编码器多目标优化可解释性推荐理由:做表征对齐、多模态学习或可解释性研究的团队,这篇论文把概念对齐的混乱局面理清了——CoSAE 用极少量配对数据就能实现强对齐,值得直接复现试试。原文
09:30arXiv cs.AI@Sweta Mahajan, Sukrut Rao, Jiahao Xie, Alexander Koller, Bernt SchieleCLIP等视觉语言模型存在图文嵌入对齐差的问题,因为图像包含的信息远超其标题描述。TEVI框架利用稀疏自编码器解耦图像嵌入,并训练掩码模块根据标题选择性重建嵌入,从而保留标题描述的特征、丢弃无关信息。在合成标题的受控实验中,TEVI能有效保留标题描述的属性。在MS COCO、Flickr、IIW、DOCCI等基准测试中,TEVI提升了检索性能,尤其在长标题任务上增益更明显,同时增强了RoCOCO基准的鲁棒性。论文CLIP稀疏自编码器图文对齐检索增强视觉语言模型推荐理由:CLIP用户常遇到图文检索不准的痛点,TEVI用稀疏自编码器精准对齐嵌入,做多模态检索或视觉问答的团队可以直接参考其方法改进模型。原文
12:05arXiv cs.LG@William Dorrell稀疏自编码器(SAE)在解析神经网络表征为可解释概念方面取得了成功,但其提取内容的科学结论尚不明确。本文避开传统的数据生成模型,直接研究字典学习最优解必须满足的性质。作者将局部最优性分析扩展到非负联合优化问题,推导出最优SAE特征与其分布之间的约束关系。这些约束解释了SAE的多种行为,包括层次分裂与吸收、残差结构以及密集对跖特征。最后,作者构建了一个新的大字典凸问题,探索了每个数据点对应大量原子的极限情况,为设计下一代SAE提供了理论指导。论文稀疏自编码器可解释性神经网络表征字典学习理论分析推荐理由:这篇论文为SAE的可解释性提供了理论根基,做可解释AI或模型控制的开发者可以直接参考其结论来设计更可靠的SAE变体。原文
11:14arXiv cs.LG@Michał Brzozowski, Neo Christopher Chung72°该论文质疑了Archetypal SAEs声称的稳定性优势。研究发现,其稳定性主要源于所有训练运行使用相同的确定性k-means解码器初始化,而非算法本身的约束。作者区分了“稳定性”(独立训练模型间的一致性)和“稳定化”(不同初始化向共同解收敛)两个概念,后者才是可解释性研究真正需要的。当移除共享初始化后,Archetypal约束并未带来额外的稳定化优势。此外,论文还指出预处理依赖的余弦几何问题会干扰终点稳定性指标的解读。研究建议,评估SAE稳定性时应包含轨迹诊断和初始化消融实验。论文稀疏自编码器可解释性稳定性初始化消融Archetypal SAEs推荐理由:这篇论文戳破了Archetypal SAEs稳定性神话,做可解释性研究的团队需要重新审视自己的评估方法——别被初始化技巧骗了,建议点开看轨迹诊断和消融实验怎么做。原文
10:22arXiv cs.LG@Elana Simon, Etowah Adams, James Zou稀疏自编码器(SAE)将神经网络激活分解为可解释特征,但许多学习到的特征从未激活,即“特征死亡”问题,浪费字典容量并可能重新引入叠加。不同模型中特征死亡率差异巨大:GPT-2接近零,而AlphaFold3在相同配置下超过70%。研究发现,维度级激活异常值(维度均值远大于逐token变化)通过初始化时基于特征与激活均值的对齐程度改变预激活值,导致与均值反对齐的特征永久获得负预激活而永不激活。研究者形式化了异常严重程度γ=||μ||/||σ||,该指标在454个模型-层组合(涵盖语言、视觉、蛋白质和基因组模型)中预测初始死亡率(TopK的Spearman ρ=0.89,ReLU的ρ=0.82)。死亡特征可在训练中复活,但需要SAE偏置学习激活均值,在高γ下过程极慢。均值中心化(减去激活均值)可绕过此问题,消除所有测试模型中的异常诱导死亡,为预处理步骤的必要性提供了原理基础。论文稀疏自编码器特征死亡激活异常值可解释性均值中心化推荐理由:做可解释性研究或SAE应用的团队,这篇论文直接点出了特征死亡的根因和解决方案——均值中心化就能大幅提升字典利用率,值得在实验中验证。原文
10:30arXiv cs.AI@Yi Jing, Zao Dai, Jinwu Hu, Zijun Yao, Lei Hou, Juanzi Li, Xiaozhi Wang精选论文提出SAERL框架,利用稀疏自编码器(SAE)提取模型内部信号,用于强化学习(RL)后训练的数据工程。SAERL建模了数据的多样性、难度和质量三个内在属性,分别实现批次多样性控制、易到难课程排序和数据过滤。在Qwen2.5-Math-1.5B上,SAERL相比原始GRPO平均准确率提升3%,训练步数减少20%,且在不同模型规模和RL算法上表现一致。实验表明SAE可跨模型族和规模迁移,是一种轻量可复用的数据工程工具。论文稀疏自编码器数据工程强化学习后训练可解释性推荐理由:做LLM后训练数据工程的团队终于有了从模型内部获取信号的方法——SAERL用SAE直接指导数据排序和过滤,比依赖外部信号更高效,做RL训练优化的开发者值得一试。原文
10:54arXiv cs.LG@David Chanin精选72°一篇来自 arXiv 的论文对 SAEBench(稀疏自编码器标准评估套件)中的质量指标进行了审计,发现 Targeted Probe Perturbation (TPP) 和 Spurious Correlation Removal (SCR) 在标准设置下无法通过多种可靠性测试,不应再用于 SAE 评估。其他指标也存在噪声高、区分度低的问题。sae-probes 变体是测试中最可靠的指标,但仍难以区分同一架构的不同变体。研究结论指出,当前 SAE 领域需要更好的基准测试方法。论文稀疏自编码器可解释性基准测试SAEBench可靠性审计推荐理由:做可解释性研究的团队会发现,你依赖的 SAE 评估指标可能不可靠——TPP 和 SCR 已被证伪,建议改用 sae-probes 并关注新基准的进展。原文
10:08arXiv cs.AI@Xinchen Jin, Aditya Chatterjee, Pranav Kumar, Rohan Paleja精选本文提出一种事件锚定的可解释性方法,将稀疏自编码器(SAE)的特征分析与机器人行为事件(如末端执行器关键帧)对齐,而非依赖文本上下文。该方法通过视觉、状态和时间线索聚类任务内的关键帧,将SAE特征与行为事件关联,并可选地通过VLM注释提供语义背景。实验在两种仿真架构和真实机器人上验证,事件锚定排序对OpenVLA产生最强因果效应,并迁移到π₀.5的连续动作块。研究同时指出SAE作为干预基础存在稀疏性和不完美性,干预效果因架构和干预位置而异,激进干预会暴露安全性和可解释性限制。代码已开源。论文稀疏自编码器VLA策略可解释性机器人行为事件推荐理由:做机器人VLA策略可解释性的研究者终于有了一个行为锚定的分析框架——事件锚定SAE直接关联动作与行为事件,比纯文本分析更贴近闭环控制,建议做机器人学习或可解释AI的团队点开看看。原文