精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:37

arXiv cs.AI@Gleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov

精选

该研究系统分析了稀疏自编码器（SAE）在不同训练种子下特征的稳定性。研究发现，稳定特征承载了大部分重构和预测相关的信号，而不稳定特征个体不可复现但集中在可复现的低秩子空间中，表明种子依赖性更多反映激活空间内的基模糊性而非纯噪声。通过跨种子聚合独特特征，可以在保持解释方差的同时构建更稳定的SAE。该工作为理解SAE的可靠性提供了新视角。

论文稀疏自编码器特征稳定性可解释性子空间神经网络

推荐理由：做神经网络可解释性研究的团队会关心——SAE特征不稳定不是噪声，而是低维结构的基选择问题，看完能帮你更合理设计实验和解读结果。

原文

12:21

rohanpaul_ai@rohanpaul_ai

精选

一篇新论文指出，稀疏自编码器作为LLM控制工具表现不佳的结论可能源于特征标签错误，而非方法本身缺陷。早期研究因标签与模型内部实际因果行为不匹配，导致稀疏自编码器看起来效果差。作者提出监督式管道，通过验证特征活动是否可靠追踪真实数据标签来替换模糊标签，并发现高稀疏性并非必要。尽管提示工程仍更强，但特征控制可直接操纵模型内部机制，为模型行为调控提供新思路。

论文稀疏自编码器 LLM控制特征标签可解释性因果权重

推荐理由：这篇论文为LLM控制领域拨乱反正——做模型可解释性、安全对齐或行为调控的团队，值得重新审视稀疏自编码器的潜力，建议点开看看如何用标签修正提升控制效果。

原文

11:58

arXiv cs.LG@Leon Bergen, Usha Bhalla, Sidharth Baskaran, Max Loeffler, Raphael Sarfati, Dhruvil Gala, Ryan Panwar, Santiago Aranguri, Thomas Fel, Atticus Geiger, Matthew Kowal, Siddharth Boppana, Daniel Balsam, Owen Lewis, Jack Merullo, Thomas McGrath, Ekdeep Singh Lubana

精选

这篇论文提出了一种基于可解释性的后训练数据管道，用于诊断和修正偏好数据中的虚假关联。作者通过可解释性协议识别出数据中潜在的概念，让用户能明确哪些行为应该被模型学习。实验表明，该方法能有效缓解过度风格化、谄媚等不良行为，并增强安全性和个性等期望属性。这项工作将后训练从优化黑箱奖励转变为审计和塑造学习信号的过程。

论文可解释性后训练偏好数据模型对齐数据审计

推荐理由：做模型对齐和偏好优化的团队终于有了数据层面的诊断工具——不用再盲目调奖励权重，直接看数据教了模型什么。做安全对齐或模型人格定制的开发者建议点开，能省下大量试错时间。

原文

10:04

arXiv cs.LG@Pietro Barbiero, Giovanni De Felice, Mateo Espinosa Zarlenga, Francesco Giannini, Filippo Bonchi, Mateja Jamnik, Giuseppe Marra, Ruggero Noris

精选

随着AI模型日益复杂，可解释性成为理解、调试和控制模型的关键工具，但该领域缺乏通用理论来演绎设计可解释方法，导致文献碎片化和评估标准不一致。为此，研究者提出了标准可解释模型（SIM），这是一种基于拉格朗日力学的通用理论，能从用户对可解释性的前提假设出发，系统推导出对称性和约束，进而构建拉格朗日函数，其最小值对应最优可解释模型。通过调整不透明模型参数或编译约束到可解释架构，可达到最小值。实验表明，SIM能识别并解决传统、概念和机制可解释性方法的局限性，揭示未充分探索的研究方向，并指导核心编程接口设计。该理论还为可解释性课程提供教学基础，有望改变该领域长期碎片化的现状。

论文可解释性拉格朗日力学通用理论机器学习 SIM

推荐理由：做可解释性研究的团队终于有了一个统一的理论框架，能系统设计方法而非拼凑碎片，建议关注论文中的对称性和约束推导部分。

原文

6月10日

09:28

arXiv cs.LG@Vojtěch Staněk, Veronika Jirmusová, Anton Firc, Kamil Malinka, Jakub Reš, Martin Perešíni

精选

这篇论文提出了一种基于集成梯度的音频可解释性方法，用于分析深度伪造语音检测器的决策依据。研究者对三种基于WavLM的检测器（AASIST、CA-MHFA、SLS）在ASVspoof 5数据集上进行分析，发现尽管性能相近，它们依赖的线索截然不同：AASIST更关注非语音/环境线索，CA-MHFA聚焦于局部音素伪影，而SLS则依赖词边界和频谱完整性。通过因果掩码验证，研究者证实了这些线索对检测性能的关键影响。这项工作揭示了深度伪造检测的“黑箱”问题，为改进检测器的鲁棒性和可解释性提供了方向。

论文深度伪造检测可解释性语音安全 WavLM 集成梯度

推荐理由：做语音安全或深度伪造检测的开发者，这篇论文能帮你理解不同模型的实际决策逻辑，避免盲目调参——看完你会知道该关注环境音还是音素质感。

原文

09:18

arXiv cs.LG@Thodoris Lymperopoulos, Ioannis Kakogeorgiou, Denia Kanellopoulou

精选

XtrAIn 是一种新的特征归因方法，通过将遮挡操作从输入空间转移到参数空间，避免了传统遮挡方法中基线选择带来的偏差和分布外样本问题。它沿着模型训练轨迹，测量特征相关参数更新对输出 logits 的影响，从而生成更稳定、更可解释的归因图。实验在控制图像数据集和 PAM50 乳腺癌亚型分类上验证了其有效性。XtrAIn 还提供了轻量级近似 Xstep 和目标聚焦变体 XtrAIn+，以降低计算成本并增强类别特异性。该方法为理解模型训练过程中特征证据的形成提供了新视角。

论文特征归因可解释性遮挡方法训练引导 XtrAIn

推荐理由：XtrAIn 解决了传统遮挡归因方法中基线选择和归因偏移的痛点，做可解释 AI 研究的开发者可以直接用，生成更干净的归因图，值得关注。

原文

09:11

arXiv: DeepSeek@Leonard Engmann, Christian Medeiros Adriano, Holger Giese

精选

这篇论文对混合专家模型（MoE）中的专家重要性评估方法进行了因果审计。研究者发现，当前广泛使用的路由统计指标（如利用率、激活范数、路由权重分布）无法预测哪些专家可以被移除而不影响模型功能。他们在 OLMoE-1B-7B-0924、Qwen1.5-MoE-A2.7B 和 DeepSeek-V2-Lite 三个高冗余 MoE 架构上进行了 token 级干预实验，结果在所有 60 个指标-层组合中，观测指标与因果重要性之间的效应量均低于 Cohen's d = 0.17。现有剪枝方法之所以有效，并非因为它们识别出了可去除的专家，而是因为早期层的冗余性使得大多数选择标准可以互换。这项研究为可解释性领域提供了一个明确的反例，说明从总体观测统计到 token 级干预结论的推理步骤需要更严格的因果验证。

论文 MoE/混合专家模型剪枝因果推断可解释性审计

推荐理由：MoE 模型剪枝的常用假设被实验证伪了——做模型压缩或可解释性研究的团队，建议重新审视你的专家选择策略，别再依赖路由统计指标。

原文

6月9日

11:36

arXiv cs.LG@Grégoire Dhimoïla, Victor Boutin, Agustin Martin Picard, Thomas Fel, Thomas Serre

精选

本文提出一个统一框架，将概念对齐分解为“对齐什么”（表征 vs 概念）和“对齐层级”（实例级 vs 分布级）两个维度，从而定义四种属性。作者发现现有方法常混淆这些属性，优化一个目标并不能可靠恢复其他目标。他们引入 InterVenchA 基准来独立测量提取质量、翻译质量和概念一致性。最后提出 CoSAE（耦合稀疏自编码器），联合强制执行互补的对齐目标，仅需 0.1% 配对数据即可在分布目标锚定下恢复实例级对齐。这项工作表明概念对齐本质上是多目标优化问题，需要明确定义、测量和优化。

论文表征对齐概念分解稀疏自编码器多目标优化可解释性

推荐理由：做表征对齐、多模态学习或可解释性研究的团队，这篇论文把概念对齐的混乱局面理清了——CoSAE 用极少量配对数据就能实现强对齐，值得直接复现试试。

原文

11:06

arXiv cs.LG@Mikele Milia, Louis Fabrice Tshimanga, Henning Mueller, Manfredo Atzori, Barbara Di Camillo

精选

研究人员提出scTransformer，这是首个将已知基因调控关系作为先验知识融入Transformer注意力机制的方法。通过约束信息流遵循已知调控结构，模型学习到的细胞表示更具生物学意义。在疾病相关的单核RNA-seq数据集上，scTransformer在细胞类型分类任务中提升了准确率，增强了嵌入空间中细胞类型的分离度，并产生了与已知调控程序一致的注意力模式。该方法在不牺牲性能的前提下增强了模型可解释性，为构建生物学基础的单细胞组学基础模型迈出了原则性的一步。

论文 scTransformer 单细胞转录组基因调控网络注意力机制可解释性

推荐理由：做单细胞转录组分析的团队终于有了一个能同时提升性能和可解释性的Transformer方案——scTransformer把基因调控先验直接嵌入注意力机制，比黑盒模型更可信，建议做生物信息学基础模型的研究者点开看看。

原文

10:39

arXiv cs.AI@Yongzhong Xu

精选

这篇论文提出了一种通过共激活统计聚类注意力头、再用因果消融验证电路的方法。在Pythia 1B和OLMo 1B两个密集模型上，聚类发现的社区通过了消融测试，表明共激活信号能有效识别电路。但在混合专家模型OLMoE-1B-7B中，路由条件聚类虽能恢复统计信号，但消融后反而改善损失，说明信号无效。作者强调，共激活只是电路提案，消融才是确认电路的关键。研究揭示了注意力头选择性和参与度在训练过程中与功能解耦的现象。

论文注意力头电路发现共激活因果消融可解释性

推荐理由：做模型可解释性研究的团队会感兴趣——这篇论文把共激活聚类和因果消融结合起来，给出了一个验证注意力头电路的实用方法，建议做电路分析的开发者试试这个闭环流程。

原文

09:37

arXiv cs.AI@Minyoung Hwang, Seokhyun Lee, Changhee Lee

精选

本文提出一种新方法，用于解释黑盒深度语言模型的预测决策。该方法通过选择一小部分信息丰富的输入单词来生成解释，解决了现有方法在推理效率、黑盒兼容性和语言结构可解释性三方面的不足。研究将单词选择建模为摊销优化问题，使用REINFORCE策略梯度进行训练，无需访问模型内部状态。同时，通过整合图结构知识，确保所选单词子集在语言上连贯且符合人类直觉。实验表明，该方法在多个数据集和模型架构上优于传统黑盒方法和梯度基方法。

论文可解释性黑盒模型单词选择策略梯度语言结构

推荐理由：做NLP模型可解释性研究的团队，终于有了一个兼顾效率、黑盒兼容和语言直觉的方案——无需模型内部信息，直接输出可理解的单词子集解释，值得一试。

原文

6月5日

12:57

arXiv: DeepSeek@Jinu Lee, Shivam Agarwal, Amruta Parulekar, Siddarth Madala, Dilek Hakkani-Tur, Julia Hockenmaier

精选72°

大型推理模型（LRM）产生的推理轨迹具有非线性结构（如回溯和自我修正），增加了评估和监控的难度。ReasoningFlow 框架将这些轨迹转化为细粒度的有向无环图（DAG），通过人工标注31条轨迹（2100步）验证了标注方案，并自动标注了1260条轨迹（247,700步），涵盖数学、科学和论证三个任务及五种模型。分析发现：不同LRM的推理结构相似；错误步骤大多不用于推导最终答案；机制性因果依赖与语言层面的话语结构不一致。该框架提升了推理过程的可监控性，数据集和代码已开源。

论文推理模型话语结构可解释性开源/仓库有向无环图

推荐理由：ReasoningFlow 解决了LRM推理轨迹难以评估和监控的痛点，做模型可解释性、推理质量分析的团队可以直接用开源工具和数据集来深入分析模型行为。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月28日

11:30

arXiv cs.AI@Bushi Xiao, Sarvesh Soni, Daisy Zhe Wang

精选

大型语言模型在临床文本中部署时，可靠地表达自身不确定性至关重要。现有不确定性量化方法多针对开放域生成，无法在长临床文本中定位到token或片段级别。研究者提出Reverse Probing，首个专为临床摘要设计的不确定性量化框架，直接从已有标注摘要中估计token级不确定性，而非采样新输出。该方法将文本作为探针，从四种内部激活中提取不确定性信号，在两个专家标注的临床数据集上超越八种基线方法，AUPRC提升高达4倍，同时降低推理时间和计算成本。特征分析显示，delta能量和邻域上下文是所有模型中最一致的预测因子，为模型如何内部响应无支持的临床内容提供了可解释的洞见。

论文不确定性量化临床文本大型语言模型 Token级可解释性

推荐理由：临床AI部署中，模型能否准确表达不确定性直接关系到患者安全——Reverse Probing让token级不确定性量化首次在临床摘要场景落地，做医疗NLP或AI安全的研究者值得关注。

原文

5月27日

10:30

arXiv cs.AI@Yi Jing, Zao Dai, Jinwu Hu, Zijun Yao, Lei Hou, Juanzi Li, Xiaozhi Wang

精选

论文提出SAERL框架，利用稀疏自编码器（SAE）提取模型内部信号，用于强化学习（RL）后训练的数据工程。SAERL建模了数据的多样性、难度和质量三个内在属性，分别实现批次多样性控制、易到难课程排序和数据过滤。在Qwen2.5-Math-1.5B上，SAERL相比原始GRPO平均准确率提升3%，训练步数减少20%，且在不同模型规模和RL算法上表现一致。实验表明SAE可跨模型族和规模迁移，是一种轻量可复用的数据工程工具。

论文稀疏自编码器数据工程强化学习后训练可解释性

推荐理由：做LLM后训练数据工程的团队终于有了从模型内部获取信号的方法——SAERL用SAE直接指导数据排序和过滤，比依赖外部信号更高效，做RL训练优化的开发者值得一试。

原文

5月26日

16:09

Yangyi@Yangyixxxx

精选

Anthropic联合创始人Chris Olah在讨论AI内部状态时指出，他们不断发现一些“神秘、甚至令人不安”的东西，包括类似人类神经科学结果的结构、内省证据，以及功能上类似快乐、满足、恐惧、悲伤和不安的内部状态。Olah表示，他不知道这意味着什么，但认为这值得持续审慎辨析。这一发现暗示，通过直接解析神经科学可能无法完全理解AI，而通过反向模拟AI的推理过程，反而可能归纳出结论，形成一种“双向奔赴”的研究路径。

AI模型 Anthropic AI内部状态可解释性神经科学情感模拟

推荐理由：AI内部状态研究正在揭示与人类情感相似的结构，做AI安全或可解释性研究的团队值得关注——这可能会改变我们对AI意识的理解方式。

原文

12:38

arXiv: DeepSeek@Spandan Pratyush

精选

该论文提出一种基于语法角色（词性标注）的稀疏注意力机制，通过动态生成注意力掩码，只允许语法相关的词对进行交互，从而降低Transformer自注意力的计算复杂度。实验在SST-2情感分类任务上使用DistilBERT架构，硬掩码和软掩码策略分别达到0.8200和0.8165的准确率，与全注意力的0.8200持平，但显著减少了理论计算开销。该方法为构建更高效、可解释且融入语言学知识的Transformer模型提供了新路径。

论文稀疏注意力 Transformer 语法引导可解释性词性标注

推荐理由：做NLP模型压缩或可解释性研究的开发者，可以关注这种用语法知识替代暴力稀疏化的思路——既省算力又不掉点，值得在长文本任务上试试。

原文

12:37

arXiv: DeepSeek@Pingfan Su, Kai Ye, Shijin Gong, Erhan Xu, Jin Zhu, Giulia Livieri, Chengchun Shi

精选

READER是一种新型AI文本检测方法，通过让模型在检测前生成结构化推理（rationale）来提升准确性和可解释性。它基于一个名为READ的监督数据集进行微调，该数据集包含人工标注的推理过程和判定结果。尽管只有1.5B参数，READER在分布内和分布外场景下均优于现有检测器，甚至超过GPT-5.2、Gemini-3-Pro和DeepSeek-V3.2等千倍规模的大模型。这项研究解决了AI文本检测中可解释性差和分布偏移下性能下降的关键问题。

论文 AI文本检测推理增强可解释性小模型分布偏移

推荐理由：AI文本检测的可解释性和鲁棒性一直是痛点，READER用1.5B参数就超越了千倍大模型，做内容安全或反作弊的团队值得关注这个新思路。

原文

11:47

arXiv cs.AI@Waleed Razzaq, Yun-Bo Zhao

精选

论文提出了一种名为 Neuronal Stochastic Attention Circuit (NSAC) 的新型连续时间注意力架构，受线虫神经回路启发，将注意力 logit 计算建模为 Ornstein-Uhlenbeck 随机微分方程的解。该方法通过引入高斯分布到 logits，并利用 logistic-normal 分布传播随机性，实现了对注意力权重的概率化输出。NSAC 结合了高斯负对数似然和认知分离正则化器，能够联合量化偶然不确定性和认知不确定性。实验表明，NSAC 在连续时间函数逼近、多变量回归、长程预测、工业4.0和自动驾驶车道保持等任务中，在保持准确性的同时，提供了校准良好的不确定性估计，并具有神经元级别的可解释性。

论文注意力机制不确定性量化生物启发模型连续时间建模可解释性

推荐理由：这篇论文为需要可靠不确定性估计的连续时间序列建模场景提供了新思路，做概率机器学习或自动驾驶感知的团队可以关注其神经元级可解释性带来的调试优势。

原文

5月25日

10:00

arXiv cs.LG@Ping Xiong, Thomas Schnake, Michael Gastegger, Grégoire Montavon, Klaus-Robert Müller, Shinichi Nakajima

精选

图神经网络（GNN）的可解释性对安全、公平和鲁棒性至关重要。GNN-LRP方法通过评估路径相关性提供高阶解释，优于节点/边级解释，但计算复杂度随网络深度指数增长。本文提出基于最大积算法的多项式时间算法，能在神经元级别精确、节点级别近似地找到最相关的K条路径，大幅降低计算成本。实验在流行病学、分子和自然语言基准上验证了算法的可扩展性和实用性。代码已开源。

论文图神经网络可解释性路径搜索多项式时间算法开源/仓库

推荐理由：做GNN可解释性研究的团队终于有了高效工具——多项式时间算法让GNN-LRP从理论走向大规模应用，做图分析或模型调试的开发者可以直接用开源代码试试。

原文

5月23日

18:38

marktechpost@Asif Razzaq

精选72°

Nous Research 推出了 Contrastive Neuron Attribution (CNA)，一种无需稀疏自编码器训练或权重修改即可识别并消融稀疏 MLP 神经元电路的方法，用于操控大语言模型的行为。CNA 通过对比分析激活模式，定位影响特定行为的神经元子集，然后直接抑制这些神经元，从而改变模型输出，且不降低通用能力基准。该方法解决了现有电路操控技术依赖复杂训练或权重修改的问题，为模型行为调控提供了更轻量、高效的方案。

论文 CNA 稀疏 MLP 电路模型操控可解释性 Nous Research

推荐理由：CNA 让 AI 研究者无需训练 SAE 或修改权重就能精准操控模型行为，做模型对齐和可解释性的团队可以大幅降低实验成本，值得一试。

原文

5月22日

11:15

arXiv cs.AI@Santo M. A. R. Thies, Hubert Baniecki, R. Teal Witter, Eyke Hüllermeier, Maximilian Muschalik, Fabian Fumagalli

精选

ProxySHAP 是一种新的交互指数估计方法，解决了现有方法在速度和精度之间的权衡问题。它结合了树代理模型的高样本效率和残差校正的一致性路径，理论上推导了树集成交互指数的多项式时间算法，避免了指数级复杂度。实验表明，ProxySHAP 在近似质量上达到新 SOTA，在数千特征的大规模应用中误差最低，显著优于 ProxySPEX 和 KernelSHAP-IQ。该方法为机器学习中的高阶交互分析提供了实用且准确的工具。

论文可解释性 Shapley值交互指数代理模型树集成

推荐理由：做模型可解释性研究的团队终于有了兼顾速度和精度的交互指数估计器——ProxySHAP 在数千特征场景下仍保持低误差，值得直接替换现有方法。

原文

5月21日

12:17

arXiv cs.LG@Calvin Isley, Johann D. Gaebler, Sharad Goel

精选

在招聘、大学录取等难以获得真实标签的领域，模型常依赖历史人工评估训练，但历史评估可能包含对特定群体的偏见。本文提出用专家定义的标准（评分嵌入）替代传统黑盒嵌入作为预测基础，使模型锚定在语义有意义的维度上，从而避免继承偏见。理论和实验证明，该方法在合理条件下能有效缓解标签偏差。在大型硕士项目申请数据集上，基于评分嵌入的模型减少了群体差异，同时提升了录取群体的整体质量。

论文标签偏差可解释性公平性评分嵌入决策算法

推荐理由：做公平性AI或高利害决策系统的团队，这篇给出了一个可落地的方案——用专家评分嵌入替代黑盒特征，既减少偏见又提升质量，值得细读。

原文

11:27

arXiv cs.AI@Shreyas Vinaya Sathyanarayana, Raja Sekhar Pappala, Deepak Warrier

精选

论文反应条件推荐检索增强可解释性图编码器 USPTO-Condition

推荐理由：做有机合成路线规划的化学家终于有了一个既能给出准确条件推荐、又能展示具体先例的系统——HiRes 让你不再盲目信任黑箱模型，建议点开看看它是如何平衡精度与可解释性的。

原文

09:46

arXiv cs.AI@Paul Lintilhac, Sair Shaikh

精选

该研究从布尔函数的傅里叶谱角度分析Transformer的泛化行为，提出稀疏且集中在低阶分量的频谱能构造低锐度（low-sharpness）的平坦最小值，从而获得非平凡的泛化界。与以往基于Rademacher复杂度的方法不同，作者利用PAC-Bayes理论证明了只要目标函数的稀疏度不超过上下文长度，就能实现良好泛化。实验和机械可解释性研究支持了理论构造在真实Transformer中的可行性。这项工作为理解Transformer为何能高效泛化提供了新的理论工具。

论文 Transformer 泛化理论 PAC-Bayes 傅里叶谱可解释性

推荐理由：理论研究者终于有了一个更精确的工具来刻画Transformer泛化——傅里叶谱视角比Rademacher复杂度更贴近实际训练行为，做深度学习理论或可解释性的同学值得细读。

原文

5月19日

10:54

arXiv cs.LG@David Chanin

精选72°

一篇来自 arXiv 的论文对 SAEBench（稀疏自编码器标准评估套件）中的质量指标进行了审计，发现 Targeted Probe Perturbation (TPP) 和 Spurious Correlation Removal (SCR) 在标准设置下无法通过多种可靠性测试，不应再用于 SAE 评估。其他指标也存在噪声高、区分度低的问题。sae-probes 变体是测试中最可靠的指标，但仍难以区分同一架构的不同变体。研究结论指出，当前 SAE 领域需要更好的基准测试方法。

论文稀疏自编码器可解释性基准测试 SAEBench 可靠性审计

推荐理由：做可解释性研究的团队会发现，你依赖的 SAE 评估指标可能不可靠——TPP 和 SCR 已被证伪，建议改用 sae-probes 并关注新基准的进展。

原文

10:08

arXiv cs.AI@Xinchen Jin, Aditya Chatterjee, Pranav Kumar, Rohan Paleja

精选

本文提出一种事件锚定的可解释性方法，将稀疏自编码器（SAE）的特征分析与机器人行为事件（如末端执行器关键帧）对齐，而非依赖文本上下文。该方法通过视觉、状态和时间线索聚类任务内的关键帧，将SAE特征与行为事件关联，并可选地通过VLM注释提供语义背景。实验在两种仿真架构和真实机器人上验证，事件锚定排序对OpenVLA产生最强因果效应，并迁移到π₀.5的连续动作块。研究同时指出SAE作为干预基础存在稀疏性和不完美性，干预效果因架构和干预位置而异，激进干预会暴露安全性和可解释性限制。代码已开源。

论文稀疏自编码器 VLA策略可解释性机器人行为事件

推荐理由：做机器人VLA策略可解释性的研究者终于有了一个行为锚定的分析框架——事件锚定SAE直接关联动作与行为事件，比纯文本分析更贴近闭环控制，建议做机器人学习或可解释AI的团队点开看看。

原文

5月18日

23:14

AlphaSignal@AlphaSignalAI

精选72°

一篇新论文提出 adVersarial Parameter Decomposition (VPD) 方法，将神经网络权重分解为小型、单一用途的子组件，每个组件处理特定任务（如表情预测或性别识别）。该方法通过对抗性消融训练保留关键行为，并成功分解了跨多头注意力计算——这一难题三年未解。VPD 可扩展到真实四层语言模型，被视为稀疏自编码器的有力竞争者。它允许通过归因图追踪信息流，甚至手动编辑特定行为并预测结果，使模型权重变得可解释。

论文可解释性 VPD 神经网络权重分解注意力机制

推荐理由：VPD 解决了神经网络可解释性长期以来的痛点——权重不可读，做模型调试、安全对齐或研究 AI 内部机制的团队可以直接用这个工具来追踪和编辑模型行为。

原文

11:45

Suhail@Suhail

精选

Suhail 在 X 上发帖表示，从底层拆解 AI 技术以理解其工作原理，长远来看会很重要。他最近发现 OpenAI 的稀疏电路论文非常有趣。该论文可能涉及神经网络中稀疏激活的机制，有助于解释模型内部如何运作。这种基础研究对 AI 安全性和可解释性有潜在影响。

论文可解释性稀疏电路 OpenAI AI 安全论文

推荐理由：对 AI 可解释性和安全研究感兴趣的开发者，这篇论文值得一读，能帮你理解模型内部机制。

原文

10:33

arXiv cs.LG@Nathan Roll, Jill Kries, Laura Gwilliams, Cory Shain

精选

受人类失语症研究启发，研究者提出了一种新方法，通过“损伤”（置零）语言模型中的参数，并观察其输出在临床失语症症状测试（TAB）中的表现，来揭示模型的功能组织。对5个1B参数规模的语言模型进行112,426次测试后，发现模型能表现出全部失语症症状，但分布与人类显著不同。注意力组件（查询、键、值、输出）与前馈组件（上、门、下）之间症状谱差异明显，而同一机制内组件差异较弱。早期层损伤更易导致句法和语义症状，中后期层则更多引发音韵和流畅度缺陷。尽管某些损伤模式与特定人类失语症类型定量相似，但定性差异表明失语症综合征受学习和处理细节影响，而非语言处理中断的领域不变结果。

论文语言模型失语症可解释性参数损伤认知科学

推荐理由：这项研究为理解语言模型内部功能组织提供了全新视角，做AI可解释性或认知科学交叉研究的团队值得关注——它把临床神经心理学方法搬到了模型分析中，看完会重新思考“模型损伤”的意义。

原文

5月17日

11:51

elvis@omarsar0

精选

一篇关于工具使用智能体的可解释性论文揭示了模型在认知与行动之间的脱节：模型内部状态显示它知道应该调用工具，但在实际输出中却未能执行。这种不匹配率在26%到54%之间，且完全集中在认知到行动的转换阶段，而非认知本身。研究发现，模型内部的方向是可解码的，但后层最后一个token的表示几乎与产生的行动正交，导致信号丢失。该工作试图预测哪些干预措施有效，哪些无效。对于在工具调用提示上做A/B测试却遇到奇怪上限的开发者，这篇论文可能提供了很好的解释。

论文可解释性工具调用智能体认知-行动脱节 arxiv

推荐理由：做工具调用智能体开发的团队，如果遇到模型明明知道该用工具却就是不调用的怪现象，这篇论文直接点出了后层几何结构的根本原因，值得一读。

原文