10:35arXiv cs.LG@Talia Sternberg, Gallil Maimon, Yossi Adi该论文分析了来自不同模型族和规模的交错语音文本语言模型,发现它们会在中间层隐式转录语音对应的文本词,其中77%的数据中该文本词出现在Top候选词中。随后模型在文本空间预测下一个词,再转回语音域。研究还表明,交错训练数据和文本LM初始化是诱发该行为的关键,且该行为与口语知识能力相关。论文Speech Language Models交错训练语音模型多模态模型可解释性推荐理由:这篇论文让你搞懂语音语言模型内部是怎么偷偷把语音转成文本再推理的,分析得很透彻,适合想深入理解多模态模型原理的人。原文
11:13arXiv cs.LG@Rohit Gandikota, David Bau精选论文发现视觉语言模型的LM骨干中存在一组称为gaze heads的注意力头,其注意力会追踪模型当前描述的图像区域。通过仅对top-100个gaze heads(少于全部9%)进行注意力掩码干预,能以83.1%的准确率引导模型描述指定的漫画面板,而随机干预无效。该干预同样适用于自然COCO图像,且机制在2B到32B参数规模及多种VLM架构中复现。该工作展示了通过机制分析实现无需重训的推理时多模态行为操控。论文VLMGaze Heads注意力头多模态模型可解释性推荐理由:操控VLM输出,像翻漫画一样准原文
11:48arXiv cs.AI@Federico Torrielli, Peter Schneider-Kamp, Lukas Galke Poech精选该研究针对激活预言机(activation oracles)的自然语言输出,探索了6种不确定性量化方法。实验基于6000个样本,发现bootstrap模式频率在Qwen3-8B和Qwen3.6-27B上校准误差最低(ECE 5.7% vs 25.5%),而log-prob基线可作为低成本快速筛选信号。这项工作填补了激活预言机置信度评估的空白,对依赖模型内部解释的AI安全研究有直接意义。论文激活预言机置信度校准不确定性量化模型可解释性Qwen推荐理由:做模型可解释性研究的团队终于有了可靠的置信度评估方法——bootstrap模式频率比传统log-prob校准误差低近5倍,建议做LLM内部机制分析的开发者直接参考论文代码。原文
11:15arXiv cs.LG@Lanxin Xiang, Liang Shi, Youhui Ye, Boyu Jiang, Dawei Zhou, Feng Guo精选特征归因分析在解释机器学习模型时,常因数据分割、随机种子等随机因素导致结果不稳定。本文提出 RoSHAP 框架,通过 Bootstrap 重采样和核密度估计建模特征重要性得分的分布,并证明聚合得分渐近服从高斯分布,大幅降低计算成本。RoSHAP 指标同时奖励活跃、强且稳定的特征,在模拟和真实实验中优于单次归因方法。使用 RoSHAP 筛选的特征构建的模型,在预测性能接近全特征模型的同时,显著减少了特征数量。该框架提升了模型的可解释性和稳定性,为可靠的数据驱动决策提供了支持。论文特征归因SHAP鲁棒性模型可解释性Bootstrap推荐理由:做模型可解释性研究的团队终于有了一个能对抗随机波动的归因指标——RoSHAP 通过分布建模让特征排序更稳定,做特征筛选和模型审计的开发者可以直接用。原文
21:35Anthropic: Transformer Circuits(资讯)Transformer Circuits 团队发布了 2025 年 1 月的更新,重点介绍了字典学习(dictionary learning)的多种优化技术。这些技术旨在提高模型可解释性,通过更高效地分解神经网络激活值来理解内部机制。更新包括新的训练技巧、稀疏性控制方法以及计算效率改进,有助于研究人员更深入地分析 transformer 模型的行为。这对于推动 AI 安全性和透明度具有重要意义,尤其适合从事可解释性研究的团队。论文字典学习模型可解释性Transformer Circuits优化技术AI 安全推荐理由:字典学习是理解大模型内部机制的关键工具,这些优化技术能显著提升分析效率。做 AI 可解释性研究的团队值得关注,可以直接参考这些方法改进自己的实验。原文
21:35Anthropic: Transformer Circuits(资讯)Anthropic 团队发布了 HeadVis,一个用于理解语言模型中注意力头行为的交互式可视化工具。该工具通过图形化展示注意力头的激活模式、注意力分布和功能角色,帮助研究人员和开发者更直观地分析模型内部机制。HeadVis 支持实时探索不同层和头的注意力模式,并能与模型输出关联,揭示特定头在生成过程中的作用。这一工具旨在降低模型可解释性的门槛,让更多人能够参与理解 Transformer 架构的内部运作。论文注意力头可视化工具模型可解释性TransformerAnthropic推荐理由:做模型可解释性研究或想深入理解 Transformer 内部机制的开发者,HeadVis 提供了一个直观的交互式分析工具,值得一试。原文
11:44arXiv cs.AI(学术论文)这项研究探测了Gemma 3、Qwen 3、Qwen 2.5和Llama 3.1等12个指令微调模型(参数量从270M到27B),发现模型内部对所选工具的表示是线性的,可以通过激活干预来操控。通过添加两个工具平均激活的差值向量,可以在单轮名称提示上以77-100%的准确率(4B以上模型达93-100%)切换工具选择,并且随后的JSON参数会自动适应新工具的架构。此外,该方法还能提前标记潜在错误:在Gemma 3 12B和27B上,top-1与top-2工具差距最小的查询产生错误调用的概率是差距最大查询的14-21倍。因果效应集中在输出层对应目标工具首标记的行方向上,激活修补将影响定位到中后层少数注意力头。即使在基础模型中,内部状态也能在模型实际生成工具名称之前编码正确的工具选择,这表明预训练阶段已经形成了工具表征,指令微调只是将其连接到输出层。论文工具调用线性表征模型可解释性智能体推荐理由:该研究揭示了语言模型中工具选择的内在线性表征机制,为提升工具调用的可解释性和可控性提供了理论基础,对构建更可靠的智能体系统具有重要启发意义。原文