可解释性 · AI 话题观测

§ 01综述

近期，AI 可解释性领域在机制理解、不确定性量化、高效解释方法等多个方向取得密集进展。研究重点正从简单的特征归因转向内部表征和因果机制的深层剖析。

主要进展

神经激活的内部状态解析：Anthropic 联合创始人 Chris Olah 指出，通过稀疏自编码器（SAE）等技术，研究者已能在LLM内部发现类似人类情感的结构，这为AI安全性提供了新的控制视角（Anthropic联合创始人谈AI内部状态）。SAERL方法进一步利用SAE的内部信号指导LLM后训练数据筛选，提升了模型性能（SAERL）。而Contrastive Neuron Attribution (CNA) 无需训练SAE或修改权重，即可实现稀疏MLP电路的操控，降低了机制干预的技术门槛（Nous Research发布CNA）。

面向特定任务的不确定性量化：Reverse Probing 提出一种监督式Token级不确定性量化方法，专门针对临床文本，通过探针模型反向估计模型对每个token的置信度，有助于提高高风险领域决策可靠性（Reverse Probing）。

高效且结构化的解释方法：语法引导稀疏注意力（Grammar-Guided Sparse Attention）设计了一种注意力模式，既提升效率又增强Transformer的可解释性（语法引导稀疏注意力）。Relevant Walk Search 用多项式时间算法加速GNN解释，使解释更高效（Relevant Walk Search）。ProxySHAP 使用代理模型近似Shapley和Banzhaf交互值，降低了计算成本（ProxySHAP）。此外，受生物启发的随机注意力电路（NSAC）探索了概率表示学习的新路径（NSAC）。

当前焦点/未来观察点：当前可解释性研究正从‘是什么’走向‘为什么’，关注点从结果归因转向机制理解。Key挑战在于：① 如何将SAE等揭示的内部‘情感结构’转化为可操作的干预手段（例如在安全对齐中）？② 高效的近似方法（如ProxySHAP）是否能保持解释的忠实性？③ 在医疗等高风险场景下，Token级不确定性量化的实际应用效果如何？未来，随着机制解释技术与模型训练、后处理的结合，可解释性有望从辅助分析演变为模型开发的标准组件。

§ 02相关报道10 条在档

§ 03邻近话题