AITOP

5月15日

11:09

arXiv cs.LG@ML Nissen Gonzalez, Melwina Albuquerque, Laurence Wroe, Jacob Meyer Cohen, Logan Riggs Smith, Thomas Dooms

精选58

这篇论文提出了一种新的权重度量方法——张量相似性（Tensor Similarity），用于判断两个神经网络是否实现相同的计算。现有方法要么依赖经验行为（对分布外机制不敏感），要么依赖基依赖参数（忽略权重空间对称性）。新方法通过递归算法捕捉跨层机制，对权重空间对称性保持不变，从而更准确地衡量全局功能等价性。实验表明，张量相似性在追踪训练动态（如grokking和后门插入）方面优于现有指标。这项工作将相似性测量和忠实性验证从经验近似问题转化为可解的代数问题。

论文可解释性神经网络张量相似性权重空间对称性功能等价性

推荐理由：做可解释性研究的团队终于有了一个不依赖经验近似、能真正衡量网络等价性的工具，值得关注。

5月14日

13:26

arXiv cs.LG@Chuanchuan Sun, Zhen Yu, Qin Fan, Qingchao Chen, Feng Yu

精选35

妊娠相关血栓性微血管病（P-TMA）罕见但致命，早期风险预测极具挑战，因为其实验室异常常被妊娠期生理变化掩盖。该研究纳入300例妊娠（142例P-TMA，158例对照），利用146个纵向实验室指标，评估了五种机器学习算法。梯度提升模型在测试集上达到AUROC 0.872、AUPRC 0.883，敏感度0.750，特异度0.812。研究发现，第6周的胱抑素C可作为早期监测指标。这项工作展示了常规产检数据经机器学习分析后，能有效识别P-TMA风险信号。

论文机器学习妊娠相关血栓性微血管病纵向实验室数据梯度提升可解释性

推荐理由：产科医生和AI医疗研究者值得关注——这项研究用常规产检数据解决了P-TMA早期预测难题，梯度提升模型表现可靠，且胱抑素C指标易于临床落地。建议点开看看具体特征分析和模型细节。

5月13日

19:12

arXiv cs.AI@Eric Bigelow, Raphaël Sarfati, Daniel Wurgaft, Owen Lewis, Thomas McGrath, Jack Merullo, Atticus Geiger, Ekdeep Singh Lubana

精选65

该研究提出大语言模型（LLM）的上下文学习可视为在低维几何空间（概念信念空间）中的轨迹更新。通过故事理解任务，结合行为与表征分析发现：信念更新在低维结构化流形上可被良好描述；模型行为与内部表征一致反映该结构，且可用简单线性探针解码预测行为；对表征的干预能因果性地引导信念轨迹，效果可从概念空间几何预测。该工作为 LLM 的贝叶斯解释提供了结构化几何基础。

论文上下文学习信念空间几何表征可解释性贝叶斯推理

推荐理由：这项研究把 LLM 上下文学习的黑箱过程可视化成了几何轨迹，做可解释性、推理机制或认知建模的研究者值得关注——它提供了干预模型信念的实操方法，看完会有启发。

19:12

arXiv: DeepSeek@Wenkai Li, Fan Yang, Ananya Hazarika, Shaunak A. Mehta, Koichi Onoue

精选75

一项新研究系统性地检验了思维链（CoT）推理过程与最终答案形成时间之间的对齐程度。研究者提出了一个步骤级的检测-分类-比较框架，使用答案承诺代理、Patchscopes、调谐透镜探针和因果方向消融等方法，对九个模型和七个推理基准进行了分析。结果显示，潜在承诺与显式答案到达仅在平均 61.9% 的步骤上对齐，其中 58% 的不匹配事件表现为“虚构延续”——模型在答案已稳定后继续生成看似深思熟虑的文本。在架构匹配的 Qwen2.5 与 DeepSeek-R1-Distill 对比中，推理管线改变了失败组成而非整体对齐度。研究还发现，步骤级对齐度越低，CoT 的实用性反而越大，表明最受益于 CoT 的场景往往时间忠实性最差。截断实验和捐赠-破坏测试进一步表明，大量承诺后的文本对最终答案并非关键。

论文思维链可解释性 AI安全推理模型忠实性

推荐理由：这项研究戳破了 CoT 推理过程忠实反映模型思考过程的假设，做 AI 安全、可解释性研究或依赖 CoT 审计的团队值得关注——它提醒我们，看起来合理的推理链条可能只是事后编造的故事。

5月12日

19:11

arXiv: DeepSeek@Aojie Yuan, Zhiyuan Julian Su, Haiyue Zhang, Yi Nian, Yue Zhao

75

研究揭示了链式思维推理中的一个反直觉现象：语言模型能在内部（隐藏状态）精确检测自身推理错误（AUROC达0.95），但外在表达的信心与正确推理几乎无异（4.55/5 vs 4.87/5）。这一错误意识从推理第一步就存在（AUROC 0.79），并在Qwen、Llama、Phi等模型家族及DeepSeek-R1等推理模型上得到验证。然而，所有基于该信号的干预尝试（激活导向、最佳N选1、自我修正、激活修补）均失败，说明错误表征是计算质量的诊断指标，而非可修改的因果杠杆。这划定了解释性边界：推理中的错误表征与可编辑的事实知识本质上不同。

论文推理模型可解释性链式思维错误检测 AI安全

推荐理由：该研究揭示了当前可解释性方法的关键局限——高精度的内部错误检测并不能转化为有效修正，挑战了对CoT推理过程的因果干预假设。对AI安全与实践者有重要警示：依赖隐藏状态进行推理纠错可能行不通。

5月11日

11:44

arXiv cs.LG（学术论文）

35

研究者提出了一种名为Susceptibilities的技术，用于深度强化学习中神经网络的可解释性分析。该方法通过研究损失扰动对观测值后验期望的影响，扩展到RL的遗憾（regret）设置中。在简单的网格世界模型中，Susceptibilities能够揭示参数空间内模型发展的内部特征，而这些特征通过单纯学习策略发展无法检测。验证实验使用激活引导（activation-steering）证实了结果，并讨论了该方法扩展到RLHF后训练的可能性。这一工作为理解RL智能体的行为和学习过程提供了新的分析工具。

论文强化学习可解释性神经网络 RLHF

推荐理由：对强化学习研究者有参考价值，提供了超越传统策略分析的模型内部状态洞察方法，尤其可用于分析RLHF训练中的阶段变化。