arXiv cs.LG@David Chanin精选72一篇来自 arXiv 的论文对 SAEBench(稀疏自编码器标准评估套件)中的质量指标进行了审计,发现 Targeted Probe Perturbation (TPP) 和 Spurious Correlation Removal (SCR) 在标准设置下无法通过多种可靠性测试,不应再用于 SAE 评估。其他指标也存在噪声高、区分度低的问题。sae-probes 变体是测试中最可靠的指标,但仍难以区分同一架构的不同变体。研究结论指出,当前 SAE 领域需要更好的基准测试方法。论文稀疏自编码器可解释性基准测试SAEBench可靠性审计推荐理由:做可解释性研究的团队会发现,你依赖的 SAE 评估指标可能不可靠——TPP 和 SCR 已被证伪,建议改用 sae-probes 并关注新基准的进展。
arXiv cs.AI@Xinchen Jin, Aditya Chatterjee, Pranav Kumar, Rohan Paleja精选63本文提出一种事件锚定的可解释性方法,将稀疏自编码器(SAE)的特征分析与机器人行为事件(如末端执行器关键帧)对齐,而非依赖文本上下文。该方法通过视觉、状态和时间线索聚类任务内的关键帧,将SAE特征与行为事件关联,并可选地通过VLM注释提供语义背景。实验在两种仿真架构和真实机器人上验证,事件锚定排序对OpenVLA产生最强因果效应,并迁移到π₀.5的连续动作块。研究同时指出SAE作为干预基础存在稀疏性和不完美性,干预效果因架构和干预位置而异,激进干预会暴露安全性和可解释性限制。代码已开源。论文稀疏自编码器VLA策略可解释性机器人行为事件推荐理由:做机器人VLA策略可解释性的研究者终于有了一个行为锚定的分析框架——事件锚定SAE直接关联动作与行为事件,比纯文本分析更贴近闭环控制,建议做机器人学习或可解释AI的团队点开看看。