全部 AI 动态 · AI 热点

6月29日

10:12

arXiv cs.LG@David Steinmann, Antonia Wüst, Kristian Kersting, Wolfgang Stammer

COCOLogic-V2 是一个面向现实图像的对象中心数据集，覆盖一阶逻辑的广泛子集，用于视觉归纳推理评估。它将样本分为正变体、近边界和远边界负例三类，实现对模型可解释性的细粒度诊断。实验表明，模型能很好区分正样本和远边界负例，但在近边界负例上表现失败。此外，感知噪声和大规则搜索空间在少样本场景下构成额外挑战。该数据集为推进视觉归纳推理提供了具体基础。

论文 COCOLogic-V2 推理模型视觉理解逻辑推理可解释性

推荐理由：COCOLogic-V2 这个新数据集专测视觉推理，正反例分类特别细，模型在近边界上直接翻车，做可解释 AI 的可以看看。

原文

6月26日

11:39

arXiv cs.AI@Sangwoo Cho, Kushal Chawla, Pengshan Cai, Zefang Liu, Chenyang Zhu, Shi-Xiong Zhang, Sambit Sahu

BINEVAL将评估标准拆解为原子化的二元问题，由LLM独立回答后聚合为多维可解释分数。在SummEval、Topical-Chat和QAGS三个基准上，BINEVAL匹配或超越UniEval和G-Eval，尤其擅长事实一致性评估（QAGS上的表现突出）。其问题级反馈可用于迭代优化评估提示和生成提示，在IFBench的自我更新和跨模型更新设置中均有效。该方法无需训练、任务无关，且避免了现有LLM评判器的天花板效应。

论文 BINEVAL LLM评估可解释性事实一致性自我改进

推荐理由：BINEVAL把LLM评估拆成一堆“是/否”问题，结果好理解、易调试，在事实一致性上比UniEval还准，还能自己优化提示词。

原文

10:40

arXiv cs.LG@Nathanaël Jacquier, Maria Vakalopoulou, Mahdi S. Hosseini

这篇论文提出两种可与Top-k稀疏自编码器架构兼容的稀疏正则化方法：对未选中单元的L1惩罚和尺度不变的L1/L2比率惩罚。在2个数据集、3个视觉基础模型和多种k值下，两种正则化均一致改善单语义性而不降低重构质量。L1/L2惩罚进一步将信息集中到更少潜在单元中，使重构对推理时k的选择更具鲁棒性，并提升小预算线性探测性能。核心发现是硬性架构稀疏性与软性稀疏正则化互补而非互斥。

论文 Top-k SAE 稀疏自编码器可解释性视觉基础模型正则化

推荐理由：这篇论文给Top-k稀疏自编码器加了两种正则化方法，能让模型更可解释而且重构质量不降，值得做可解释性的人看看。

原文

01:48

Microsoft Research@MSFTResearch

微软研究人员提出一种名为generative causal testing的方法，将黑盒语言模型转化为清晰假设，并通过fMRI脑部扫描进行验证。实验揭示了特定脑区对语言特征（如词义、句法）的响应模式，例如左侧颞叶对语义角色的敏感度。该方法在多个基准测试中优于传统解释性技术，为理解神经语言处理提供了新途径。

论文 generative causal testing 微软研究可解释性语言理解

推荐理由：微软研究搞了个新招，把黑盒模型怎么处理语言变成可以验证的假设，还真的用脑扫描去测，看哪些脑区在干活，挺有意思。

原文

6月23日

12:51

arXiv cs.LG@Ankur Garg, Ulrich Aïvodji, Samira Ebrahimi Kahou, Vincent Michalski

神经分类树(NCT)通过树状结构编码子组信息，无需子组标注即可将样本路由到“易”或“难”节点，并重用路径作为伪标签迭代优化。在五个基准（含二分类和多分类虚假关联）上，NCT一致隔离少数子组，解释性强，且鲁棒性与最先进方法相当。

论文 NCT 鲁棒性可解释性子组发现虚假关联

推荐理由：这篇论文用树结构搞定模型对少数子组表现差的问题，还能看清子组结构，挺实在的。

原文

6月19日

11:41

arXiv cs.AI@Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O'Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda

71°

论文分析 DiffusionGemma 的推理透明度，将其分解为变量透明度和算法透明度。初始发现 DiffusionGemma 的不透明串行深度是自回归 Gemma 4 的 28.6 倍。但通过可解释的 token 瓶颈映射信息流，可将不透明串行深度降至仅 Gemma 4 的 1.1 倍。算法透明度方面，扩散模型因每步所有 token 可变化而更复杂，研究识别了非时间顺序推理、token 与序列涂抹、中间上下文推理等新现象。可监控性测试表明 DiffusionGemma 与 Gemma 4 水平相当。

论文 DiffusionGemma Gemma 4 可解释性推理模型 Google

推荐理由：Google 团队这篇论文解释 DiffusionGemma 的推理黑箱有多大，发现能用 token 瓶颈把深度压到几乎和 Gemma 4 一样，还发现了扩散模型特有的奇怪推理方式。

原文

6月18日

10:57

arXiv cs.LG@Amiri Hayes, Belinda Li, Jacob Andreas

研究者提出用程序合成方法反向工程Transformer注意力头。他们先计算注意力矩阵，再让预训练语言模型生成Python程序来重现注意力模式。在GPT-2、TinyLlama-1.1B和Llama-3B上，不到1000个程序实现了平均IoU>75%。替换25%的注意力头仅导致16%的困惑度增加，并在下游问答基准上保持性能。

论文 GPT-2 TinyLlama Llama-3B 可解释性注意力机制

推荐理由：这篇论文用Python程序解释了注意力头怎么工作，还能直接用程序替换掉原始头，精度很高，想看模型内部机制的可以读。

原文

10:33

arXiv cs.LG@Antoine Pesenti, Aidan O'Sullivan

该论文使用深度学习（DNN）结合可解释AI（XAI）技术，分析欧洲39个竞价区的电价决定因素。通过SHAP方法和扩展的SSHAP聚合框架量化特征贡献。研究发现太阳能等可再生能源在电价形成中作用突出，尽管其发电占比低；天然气价格仍是主导且一致的驱动因素；跨区域互联显著影响价格动态。论文还构建了一个合成全欧洲统一电力市场的反事实场景。

论文 XAI SHAP DNN 欧洲电力市场可解释性

推荐理由：这篇论文用XAI方法拆解了欧洲39个地区的电价驱动力，告诉你太阳能比想象中更重要、天然气还是老大，还模拟了全欧统一电价会怎样。

原文

04:01

lmarena.ai@lmarena_ai

Agent Arena 发布了一篇博客介绍其因果追踪方法论，该方法用于分析智能体在竞技场中的行为归因。博客详细解释了如何通过干预模型内部表示来定位影响输出的关键组件。该技术可帮助研究者理解Agent在复杂任务中的决策路径。

论文 Agent Arena 因果追踪智能体评估可解释性

推荐理由：想搞懂Agent决策是怎么归因的？Agent Arena这篇博客把因果追踪的方法讲得很清楚，适合做智能体评估的研究者。

原文

03:12

LangChain@LangChainAI

Benchling AI负责人@nlarusstone在LangChain发布的视频中提出，理解LLMs应借鉴生物学思维而非传统软件工程。他认为LLM的错误模式和调试过程与实验生物学类似，需要迭代测试和大规模观察。该观点引发业界对LLM可解释性本质的重新讨论。

行业 Benchling LangChain nlarusstone LLM 可解释性

推荐理由：Benchling的AI负责人用生物视角解释LLM的奇怪行为，比技术文档好懂，推荐看看他的原话。

原文

6月17日

09:38

arXiv cs.AI@Julian Hoever, Gregor Schiele

KANLib是一个模块化、可扩展且计算高效的Kolmogorov-Arnold网络（KAN）框架，统一了PyKAN、EfficientKAN和FastKAN等现有实现的核心概念。它支持两种基函数类型、自适应网格缩放、网格扩展及细粒度架构定制，并保持与PyTorch工作流的兼容性。在California Housing基准上，KANLib再现了参考KAN实现的预测行为，同时实现了有竞争力的计算效率。该框架允许探索超出标准KAN公式的架构变体，对预测性能影响微小。

论文 KANLib KAN Kolmogorov-Arnold Networks 可解释性模块化框架

推荐理由：想试KAN但被碎片化实现劝退？KANLib把PyKAN、EfficientKAN、FastKAN统一成一个高效框架，直接上手跑基准。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:48

arXiv cs.AI@Artyom Mazur, Nina Konovalova, Aibek Alanov

该论文将基于转码器的电路追踪扩展至多模态扩散Transformer，训练时间步条件转码器以逼近FLUX.1[schnell]中MLP子层的输入输出行为。通过替换MLP并线性化剩余计算，实现了精确的特征到特征归因并恢复紧凑可解释电路。在稀疏性-忠实度权衡上，转码器匹配或略优于稀疏自编码器。所得电路揭示了属性绑定和跨流语义传播机制，为系统生成误差提供了因果解释，且基于电路的干预比标准SAE干预更精准有效。

论文 DifFRACT FLUX.1 电路追踪多模态扩散Transformer 可解释性

推荐理由：这篇论文教你如何用转码器给FLUX.1模型做电路追踪，比稀疏自编码器更准确，能解释图像生成中的属性绑定错误。

原文

11:12

arXiv cs.LG@Matteo Cartiglia, Sandro Kuppel, Wouter Botermans Wannes Peeters, Natan Biesmans, Liam Vandekerckhove, Eric Beamish, Koen Ongena, Wouter Renckens, Pol Van Dorpe, Sanjin Marion

该研究提出用对比编码器将随机单分子信号映射到可解释分子坐标，编码器仅基于物理模型模拟信号训练。编码器对结构参数敏感，对采集条件和构象不变，允许跨设备数据整合。单次编码完成分子识别，计算成本比对齐方法降低三个数量级。实验验证了混合物定量、稀有变异检测和实时信号采集。

论文纳米孔单分子传感对比学习编码器可解释性

推荐理由：这篇论文用模拟信号训练编码器，把纳米孔信号转成可解释坐标，识别快了一千倍，实验也扎实。

原文

10:24

arXiv cs.LG@Mohamed Manzour, Aditya Kumar, Augusto Luis Ballardini, Miguel Ángel Sotelo

该框架采用因果推断方法进行换道预测，结合专家约束因果发现与Deep End-to-end Causal Inference (DECI) 模型。在车道线跨越事件前3秒内，平均F1分数超过95%。通过干预效应分析区分直接贡献变量与中介效应，并生成对比因果链解释。与传统基于相关性分类的方法不同，该框架提供可解释的因果推理。

论文换道预测因果推理自动驾驶可解释性 DECI

推荐理由：这篇论文把换道预测从统计相关提升到因果推理，用DECI模型实现了95%以上的F1分数，还给出了清晰的因果链解释，做自动驾驶可解释性的一定要看。

原文

6月15日

11:12

arXiv cs.LG@Ines Nolasco, Jules Cauzinille, Marius Miron, Gagan Narula, Milad Alizadeh, Emmanuel Fernandez, Matthieu Geist, Ellen Gilsenan-McMahon, Olivier Pietquin, Emmanuel Chemla, Sara Keen

本研究使用88个eGeMAPS特征，对六个分类群的生物声学嵌入进行线性与非线性回归探针，揭示模型编码的语音特征。结果显示没有单一模型能覆盖全部特征空间，拼接嵌入性能最佳。Loudness特征编码最好（R²=0.76），F0最难恢复（R²=0.33）。通过交叉引用可恢复性与特征显著性（NMI），为模型选择提供数据驱动指导。

论文 bioacoustics eGeMAPS 语音特征模型选择可解释性

推荐理由：选模型？看这个研究

原文

11:12

arXiv cs.LG@Claire M. He, Genevera I. Allen

Cluster LOCO 是一种模型无关的聚类特征重要性打分方法，基于特征遮挡和聚类泛化性。它通过衡量移除某个特征后聚类标签在留出样本上的预测准确度下降来量化特征重要性。研究提出了基于数据划分的Cluster LOCO-Split和面向大规模数据的Cluster LOCO-MP（minipatch集成版）。在合成数据和单细胞转录组学的细胞类型发现任务中，Cluster LOCO比现有方法更可靠地恢复有信息量的特征。

论文 Cluster LOCO 特征重要性聚类解释可解释性单细胞转录组学

推荐理由：能解释聚类结果依赖哪些特征

原文

11:12

arXiv cs.AI@Ravi Ranjan, Utkarsh Grover, Xiaomin Lin, Agoritsa Polyzou

Transformer ASR模型如Whisper预测难解释。LEAF-X框架结合熵引导注意力加权、多层注意力展开和因果消融，定位低熵高影响头与层，生成稀疏token-帧归因。相比扰动解释器或原始注意力图，LEAF-X更好反映模型计算，忠诚度提升32%，局部性/稀疏性增强35-39%，归因最稳定。

论文 Whisper LEAF-X 可解释性 Transformer ASR

推荐理由：Whisper解释性更好用了

原文

11:10

arXiv cs.LG@Jai Bhagat, Sara Molas-Medina, Giorgi Giglemiani, Stefan Heimersheim

论文研究Braun等人2025年提出的压缩计算（CC）玩具模型。该模型用50个神经元计算100个ReLU函数，但作者发现性能提升来自输入混合而非叠加计算。训练目标分为ReLU项和混合项，增益随混合矩阵幅度增大而消失。学习到的神经元方向集中在混合矩阵前50个特征值对应的子空间。基于混合矩阵的SNMF基线能复现损失轮廓，但未完全匹配训练模型。

论文 CC Superposition SNMF 叠加计算可解释性

推荐理由：质疑CC模型的叠加假设

原文

6月12日