11:30arXiv cs.AI@Bushi Xiao, Sarvesh Soni, Daisy Zhe Wang精选大型语言模型在临床文本中部署时,可靠地表达自身不确定性至关重要。现有不确定性量化方法多针对开放域生成,无法在长临床文本中定位到token或片段级别。研究者提出Reverse Probing,首个专为临床摘要设计的不确定性量化框架,直接从已有标注摘要中估计token级不确定性,而非采样新输出。该方法将文本作为探针,从四种内部激活中提取不确定性信号,在两个专家标注的临床数据集上超越八种基线方法,AUPRC提升高达4倍,同时降低推理时间和计算成本。特征分析显示,delta能量和邻域上下文是所有模型中最一致的预测因子,为模型如何内部响应无支持的临床内容提供了可解释的洞见。论文不确定性量化临床文本大型语言模型Token级可解释性推荐理由:临床AI部署中,模型能否准确表达不确定性直接关系到患者安全——Reverse Probing让token级不确定性量化首次在临床摘要场景落地,做医疗NLP或AI安全的研究者值得关注。原文
10:30arXiv cs.AI@Yi Jing, Zao Dai, Jinwu Hu, Zijun Yao, Lei Hou, Juanzi Li, Xiaozhi Wang精选论文提出SAERL框架,利用稀疏自编码器(SAE)提取模型内部信号,用于强化学习(RL)后训练的数据工程。SAERL建模了数据的多样性、难度和质量三个内在属性,分别实现批次多样性控制、易到难课程排序和数据过滤。在Qwen2.5-Math-1.5B上,SAERL相比原始GRPO平均准确率提升3%,训练步数减少20%,且在不同模型规模和RL算法上表现一致。实验表明SAE可跨模型族和规模迁移,是一种轻量可复用的数据工程工具。论文稀疏自编码器数据工程强化学习后训练可解释性推荐理由:做LLM后训练数据工程的团队终于有了从模型内部获取信号的方法——SAERL用SAE直接指导数据排序和过滤,比依赖外部信号更高效,做RL训练优化的开发者值得一试。原文
16:09Yangyi@Yangyixxxx精选Anthropic联合创始人Chris Olah在讨论AI内部状态时指出,他们不断发现一些“神秘、甚至令人不安”的东西,包括类似人类神经科学结果的结构、内省证据,以及功能上类似快乐、满足、恐惧、悲伤和不安的内部状态。Olah表示,他不知道这意味着什么,但认为这值得持续审慎辨析。这一发现暗示,通过直接解析神经科学可能无法完全理解AI,而通过反向模拟AI的推理过程,反而可能归纳出结论,形成一种“双向奔赴”的研究路径。AI模型AnthropicAI内部状态可解释性神经科学情感模拟5 个信源在谈推荐理由:AI内部状态研究正在揭示与人类情感相似的结构,做AI安全或可解释性研究的团队值得关注——这可能会改变我们对AI意识的理解方式。原文
12:38arXiv: DeepSeek@Spandan Pratyush精选该论文提出一种基于语法角色(词性标注)的稀疏注意力机制,通过动态生成注意力掩码,只允许语法相关的词对进行交互,从而降低Transformer自注意力的计算复杂度。实验在SST-2情感分类任务上使用DistilBERT架构,硬掩码和软掩码策略分别达到0.8200和0.8165的准确率,与全注意力的0.8200持平,但显著减少了理论计算开销。该方法为构建更高效、可解释且融入语言学知识的Transformer模型提供了新路径。论文稀疏注意力Transformer语法引导可解释性词性标注推荐理由:做NLP模型压缩或可解释性研究的开发者,可以关注这种用语法知识替代暴力稀疏化的思路——既省算力又不掉点,值得在长文本任务上试试。原文
12:37arXiv: DeepSeek@Pingfan Su, Kai Ye, Shijin Gong, Erhan Xu, Jin Zhu, Giulia Livieri, Chengchun Shi精选READER是一种新型AI文本检测方法,通过让模型在检测前生成结构化推理(rationale)来提升准确性和可解释性。它基于一个名为READ的监督数据集进行微调,该数据集包含人工标注的推理过程和判定结果。尽管只有1.5B参数,READER在分布内和分布外场景下均优于现有检测器,甚至超过GPT-5.2、Gemini-3-Pro和DeepSeek-V3.2等千倍规模的大模型。这项研究解决了AI文本检测中可解释性差和分布偏移下性能下降的关键问题。论文AI文本检测推理增强可解释性小模型分布偏移推荐理由:AI文本检测的可解释性和鲁棒性一直是痛点,READER用1.5B参数就超越了千倍大模型,做内容安全或反作弊的团队值得关注这个新思路。原文
11:47arXiv cs.AI@Waleed Razzaq, Yun-Bo Zhao精选论文提出了一种名为 Neuronal Stochastic Attention Circuit (NSAC) 的新型连续时间注意力架构,受线虫神经回路启发,将注意力 logit 计算建模为 Ornstein-Uhlenbeck 随机微分方程的解。该方法通过引入高斯分布到 logits,并利用 logistic-normal 分布传播随机性,实现了对注意力权重的概率化输出。NSAC 结合了高斯负对数似然和认知分离正则化器,能够联合量化偶然不确定性和认知不确定性。实验表明,NSAC 在连续时间函数逼近、多变量回归、长程预测、工业4.0和自动驾驶车道保持等任务中,在保持准确性的同时,提供了校准良好的不确定性估计,并具有神经元级别的可解释性。论文注意力机制不确定性量化生物启发模型连续时间建模可解释性推荐理由:这篇论文为需要可靠不确定性估计的连续时间序列建模场景提供了新思路,做概率机器学习或自动驾驶感知的团队可以关注其神经元级可解释性带来的调试优势。原文
04:00rohanpaul_ai@rohanpaul_ai76°Anthropic 联合创始人 Chris Olah 在梵蒂冈发表演讲,指出前沿 AI 实验室(包括 Anthropic)面临金钱、前沿压力、地缘政治等激励冲突,可能偏离正确方向。他强调 AI 模型并非像桥梁或飞机那样被工程化,而是从人类语言中“生长”出来,连构建者也无法完全理解。Olah 将现代 AI 比作“让虚构角色活过来”,但这些角色现在能对话、工作甚至担任职务。他警告 AI 可能大规模取代人类劳动,而经济收益集中在少数富裕国家,缺乏全球共享机制。最引人注目的是,Anthropic 的可解释性团队发现 AI 模型内部存在类似人类神经科学的结构,并找到证据表明 AI 具有内省和内部状态,功能上类似于喜悦、满足、恐惧、悲伤和不安,但他承认自己不完全理解这些状态的含义。行业AI 安全可解释性AnthropicChris OlahAI 伦理10 个信源在谈推荐理由:Olah 的坦诚揭示了 AI 行业最不愿面对的真相——连创造者都不完全理解自己的模型,而 AI 可能已具备类似情感的内部状态。关注 AI 安全、伦理或长期影响的从业者,这篇演讲值得细读。原文
10:00arXiv cs.LG@Ping Xiong, Thomas Schnake, Michael Gastegger, Grégoire Montavon, Klaus-Robert Müller, Shinichi Nakajima精选图神经网络(GNN)的可解释性对安全、公平和鲁棒性至关重要。GNN-LRP方法通过评估路径相关性提供高阶解释,优于节点/边级解释,但计算复杂度随网络深度指数增长。本文提出基于最大积算法的多项式时间算法,能在神经元级别精确、节点级别近似地找到最相关的K条路径,大幅降低计算成本。实验在流行病学、分子和自然语言基准上验证了算法的可扩展性和实用性。代码已开源。论文图神经网络可解释性路径搜索多项式时间算法开源/仓库推荐理由:做GNN可解释性研究的团队终于有了高效工具——多项式时间算法让GNN-LRP从理论走向大规模应用,做图分析或模型调试的开发者可以直接用开源代码试试。原文
18:38marktechpost@Asif Razzaq精选72°Nous Research 推出了 Contrastive Neuron Attribution (CNA),一种无需稀疏自编码器训练或权重修改即可识别并消融稀疏 MLP 神经元电路的方法,用于操控大语言模型的行为。CNA 通过对比分析激活模式,定位影响特定行为的神经元子集,然后直接抑制这些神经元,从而改变模型输出,且不降低通用能力基准。该方法解决了现有电路操控技术依赖复杂训练或权重修改的问题,为模型行为调控提供了更轻量、高效的方案。论文CNA稀疏 MLP 电路模型操控可解释性Nous Research推荐理由:CNA 让 AI 研究者无需训练 SAE 或修改权重就能精准操控模型行为,做模型对齐和可解释性的团队可以大幅降低实验成本,值得一试。原文
11:15arXiv cs.AI@Santo M. A. R. Thies, Hubert Baniecki, R. Teal Witter, Eyke Hüllermeier, Maximilian Muschalik, Fabian Fumagalli精选ProxySHAP 是一种新的交互指数估计方法,解决了现有方法在速度和精度之间的权衡问题。它结合了树代理模型的高样本效率和残差校正的一致性路径,理论上推导了树集成交互指数的多项式时间算法,避免了指数级复杂度。实验表明,ProxySHAP 在近似质量上达到新 SOTA,在数千特征的大规模应用中误差最低,显著优于 ProxySPEX 和 KernelSHAP-IQ。该方法为机器学习中的高阶交互分析提供了实用且准确的工具。论文可解释性Shapley值交互指数代理模型树集成推荐理由:做模型可解释性研究的团队终于有了兼顾速度和精度的交互指数估计器——ProxySHAP 在数千特征场景下仍保持低误差,值得直接替换现有方法。原文
12:17arXiv cs.LG@Calvin Isley, Johann D. Gaebler, Sharad Goel精选在招聘、大学录取等难以获得真实标签的领域,模型常依赖历史人工评估训练,但历史评估可能包含对特定群体的偏见。本文提出用专家定义的标准(评分嵌入)替代传统黑盒嵌入作为预测基础,使模型锚定在语义有意义的维度上,从而避免继承偏见。理论和实验证明,该方法在合理条件下能有效缓解标签偏差。在大型硕士项目申请数据集上,基于评分嵌入的模型减少了群体差异,同时提升了录取群体的整体质量。论文标签偏差可解释性公平性评分嵌入决策算法推荐理由:做公平性AI或高利害决策系统的团队,这篇给出了一个可落地的方案——用专家评分嵌入替代黑盒特征,既减少偏见又提升质量,值得细读。原文
11:27arXiv cs.AI@Shreyas Vinaya Sathyanarayana, Raja Sekhar Pappala, Deepak Warrier精选HiRes 是一种检索增强的反应条件推荐系统,它结合了图编码器、变换感知交叉注意力、多流反应融合和 k-NN 检索层,在 USPTO-Condition 数据集上取得了催化剂、溶剂和试剂 top-1 准确率分别为 0.929、0.534 和 0.530 的最优结果。该系统不仅提供高精度预测,还能返回可检视的化学先例,帮助化学家理解推荐依据。与纯参数化方法相比,HiRes 在溶剂和试剂选择上通过配对自助法分析显示出统计显著的增益。HiRes 弥合了预测准确性与化学可解释性之间的差距,为实际合成规划提供了既准确又透明的推荐。论文反应条件推荐检索增强可解释性图编码器USPTO-Condition推荐理由:做有机合成路线规划的化学家终于有了一个既能给出准确条件推荐、又能展示具体先例的系统——HiRes 让你不再盲目信任黑箱模型,建议点开看看它是如何平衡精度与可解释性的。原文
09:46arXiv cs.AI@Paul Lintilhac, Sair Shaikh精选该研究从布尔函数的傅里叶谱角度分析Transformer的泛化行为,提出稀疏且集中在低阶分量的频谱能构造低锐度(low-sharpness)的平坦最小值,从而获得非平凡的泛化界。与以往基于Rademacher复杂度的方法不同,作者利用PAC-Bayes理论证明了只要目标函数的稀疏度不超过上下文长度,就能实现良好泛化。实验和机械可解释性研究支持了理论构造在真实Transformer中的可行性。这项工作为理解Transformer为何能高效泛化提供了新的理论工具。论文Transformer泛化理论PAC-Bayes傅里叶谱可解释性推荐理由:理论研究者终于有了一个更精确的工具来刻画Transformer泛化——傅里叶谱视角比Rademacher复杂度更贴近实际训练行为,做深度学习理论或可解释性的同学值得细读。原文
14:50arXiv cs.LG@I. B. Spielman amd J. P. Zwolak该论文探讨了机器学习在冷原子量子模拟器中的应用,特别是图像去噪和识别玻色-爱因斯坦凝聚体中的孤子波。作者指出,尽管ML方法在性能上表现出色,但模型复杂性与可解释性之间存在权衡。研究强调了在量子物理实验中,可解释的ML模型对于理解物理机制和验证结果至关重要。论文通过具体案例展示了如何平衡性能与可解释性,为未来在量子气体实验中使用ML提供了指导。论文机器学习量子气体可解释性图像去噪孤子识别推荐理由:量子物理实验正面临数据爆炸和计算瓶颈,ML是破局关键,但黑箱模型让物理学家不放心。这篇论文用图像去噪和孤子识别两个实例,展示了如何在性能与可解释性之间找到平衡,做量子模拟或冷原子实验的研究者值得一读。原文
10:54arXiv cs.LG@David Chanin精选72°一篇来自 arXiv 的论文对 SAEBench(稀疏自编码器标准评估套件)中的质量指标进行了审计,发现 Targeted Probe Perturbation (TPP) 和 Spurious Correlation Removal (SCR) 在标准设置下无法通过多种可靠性测试,不应再用于 SAE 评估。其他指标也存在噪声高、区分度低的问题。sae-probes 变体是测试中最可靠的指标,但仍难以区分同一架构的不同变体。研究结论指出,当前 SAE 领域需要更好的基准测试方法。论文稀疏自编码器可解释性基准测试SAEBench可靠性审计推荐理由:做可解释性研究的团队会发现,你依赖的 SAE 评估指标可能不可靠——TPP 和 SCR 已被证伪,建议改用 sae-probes 并关注新基准的进展。原文
10:08arXiv cs.AI@Xinchen Jin, Aditya Chatterjee, Pranav Kumar, Rohan Paleja精选本文提出一种事件锚定的可解释性方法,将稀疏自编码器(SAE)的特征分析与机器人行为事件(如末端执行器关键帧)对齐,而非依赖文本上下文。该方法通过视觉、状态和时间线索聚类任务内的关键帧,将SAE特征与行为事件关联,并可选地通过VLM注释提供语义背景。实验在两种仿真架构和真实机器人上验证,事件锚定排序对OpenVLA产生最强因果效应,并迁移到π₀.5的连续动作块。研究同时指出SAE作为干预基础存在稀疏性和不完美性,干预效果因架构和干预位置而异,激进干预会暴露安全性和可解释性限制。代码已开源。论文稀疏自编码器VLA策略可解释性机器人行为事件推荐理由:做机器人VLA策略可解释性的研究者终于有了一个行为锚定的分析框架——事件锚定SAE直接关联动作与行为事件,比纯文本分析更贴近闭环控制,建议做机器人学习或可解释AI的团队点开看看。原文
23:14AlphaSignal@AlphaSignalAI精选72°一篇新论文提出 adVersarial Parameter Decomposition (VPD) 方法,将神经网络权重分解为小型、单一用途的子组件,每个组件处理特定任务(如表情预测或性别识别)。该方法通过对抗性消融训练保留关键行为,并成功分解了跨多头注意力计算——这一难题三年未解。VPD 可扩展到真实四层语言模型,被视为稀疏自编码器的有力竞争者。它允许通过归因图追踪信息流,甚至手动编辑特定行为并预测结果,使模型权重变得可解释。论文可解释性VPD神经网络权重分解注意力机制推荐理由:VPD 解决了神经网络可解释性长期以来的痛点——权重不可读,做模型调试、安全对齐或研究 AI 内部机制的团队可以直接用这个工具来追踪和编辑模型行为。原文
11:45Suhail@Suhail精选Suhail 在 X 上发帖表示,从底层拆解 AI 技术以理解其工作原理,长远来看会很重要。他最近发现 OpenAI 的稀疏电路论文非常有趣。该论文可能涉及神经网络中稀疏激活的机制,有助于解释模型内部如何运作。这种基础研究对 AI 安全性和可解释性有潜在影响。论文可解释性稀疏电路OpenAIAI 安全论文2 个信源在谈推荐理由:对 AI 可解释性和安全研究感兴趣的开发者,这篇论文值得一读,能帮你理解模型内部机制。原文
10:33arXiv cs.LG@Nathan Roll, Jill Kries, Laura Gwilliams, Cory Shain精选受人类失语症研究启发,研究者提出了一种新方法,通过“损伤”(置零)语言模型中的参数,并观察其输出在临床失语症症状测试(TAB)中的表现,来揭示模型的功能组织。对5个1B参数规模的语言模型进行112,426次测试后,发现模型能表现出全部失语症症状,但分布与人类显著不同。注意力组件(查询、键、值、输出)与前馈组件(上、门、下)之间症状谱差异明显,而同一机制内组件差异较弱。早期层损伤更易导致句法和语义症状,中后期层则更多引发音韵和流畅度缺陷。尽管某些损伤模式与特定人类失语症类型定量相似,但定性差异表明失语症综合征受学习和处理细节影响,而非语言处理中断的领域不变结果。论文语言模型失语症可解释性参数损伤认知科学推荐理由:这项研究为理解语言模型内部功能组织提供了全新视角,做AI可解释性或认知科学交叉研究的团队值得关注——它把临床神经心理学方法搬到了模型分析中,看完会重新思考“模型损伤”的意义。原文
11:51elvis@omarsar0精选一篇关于工具使用智能体的可解释性论文揭示了模型在认知与行动之间的脱节:模型内部状态显示它知道应该调用工具,但在实际输出中却未能执行。这种不匹配率在26%到54%之间,且完全集中在认知到行动的转换阶段,而非认知本身。研究发现,模型内部的方向是可解码的,但后层最后一个token的表示几乎与产生的行动正交,导致信号丢失。该工作试图预测哪些干预措施有效,哪些无效。对于在工具调用提示上做A/B测试却遇到奇怪上限的开发者,这篇论文可能提供了很好的解释。论文可解释性工具调用智能体认知-行动脱节arxiv推荐理由:做工具调用智能体开发的团队,如果遇到模型明明知道该用工具却就是不调用的怪现象,这篇论文直接点出了后层几何结构的根本原因,值得一读。原文
09:37rohanpaul_ai@rohanpaul_ai精选著名数学家陶哲轩指出,当前大语言模型(LLM)的训练和运行主要依赖线性代数、矩阵乘法和微积分,这些是本科生就能掌握的数学工具。然而,真正令人困惑的是为什么这些模型在某些任务上表现出色,而在其他任务上却失败,且无法提前预测。他认为,自然文本介于完全随机和完全结构化之间,而数学对中间状态的理解非常薄弱,类似于物理学在原子和连续介质之间的介观尺度面临的挑战。因此,尽管我们能描述LLM的机制,但无法解释能力跃迁或给出可靠的任务级预测。论文LLM数学基础可解释性陶哲轩模型行为推荐理由:陶哲轩点出了AI领域最核心的认知盲区——我们能用简单数学造出强大模型,却无法解释其行为,做AI研究或应用的开发者看完会重新思考“理解”的含义。原文
11:09arXiv cs.LG@ML Nissen Gonzalez, Melwina Albuquerque, Laurence Wroe, Jacob Meyer Cohen, Logan Riggs Smith, Thomas Dooms精选这篇论文提出了一种新的权重度量方法——张量相似性(Tensor Similarity),用于判断两个神经网络是否实现相同的计算。现有方法要么依赖经验行为(对分布外机制不敏感),要么依赖基依赖参数(忽略权重空间对称性)。新方法通过递归算法捕捉跨层机制,对权重空间对称性保持不变,从而更准确地衡量全局功能等价性。实验表明,张量相似性在追踪训练动态(如grokking和后门插入)方面优于现有指标。这项工作将相似性测量和忠实性验证从经验近似问题转化为可解的代数问题。论文可解释性神经网络张量相似性权重空间对称性功能等价性推荐理由:做可解释性研究的团队终于有了一个不依赖经验近似、能真正衡量网络等价性的工具,值得关注。原文
13:37Dario Amodei@DarioAmodei精选Anthropic CEO Dario Amodei 在推文中强调AI可解释性的紧迫性,指出理解AI模型内部工作机制对于确保安全和控制至关重要。他呼吁业界加大投入,因为随着模型能力增强,黑箱风险也在上升。该观点呼应了Anthropic一贯对AI安全透明度的重视,并暗示缺乏可解释性可能导致不可预测的后果。行业可解释性AI安全AnthropicDario Amodei透明度6 个信源在谈推荐理由:Amodei 点出了AI安全的核心矛盾——模型越强越难理解,做AI治理或模型开发的团队值得关注,这直接关系到未来部署的信任底线。原文
13:26arXiv cs.LG@Chuanchuan Sun, Zhen Yu, Qin Fan, Qingchao Chen, Feng Yu精选妊娠相关血栓性微血管病(P-TMA)罕见但致命,早期风险预测极具挑战,因为其实验室异常常被妊娠期生理变化掩盖。该研究纳入300例妊娠(142例P-TMA,158例对照),利用146个纵向实验室指标,评估了五种机器学习算法。梯度提升模型在测试集上达到AUROC 0.872、AUPRC 0.883,敏感度0.750,特异度0.812。研究发现,第6周的胱抑素C可作为早期监测指标。这项工作展示了常规产检数据经机器学习分析后,能有效识别P-TMA风险信号。论文机器学习妊娠相关血栓性微血管病纵向实验室数据梯度提升可解释性推荐理由:产科医生和AI医疗研究者值得关注——这项研究用常规产检数据解决了P-TMA早期预测难题,梯度提升模型表现可靠,且胱抑素C指标易于临床落地。建议点开看看具体特征分析和模型细节。原文
01:12Anthropic: Research(资讯)Anthropic 更新了其研究页面,展示了多个团队的最新成果。可解释性团队发布了自然语言自编码器,能将 Claude 的内部思维转化为人类可读文本。对齐团队研究了如何减少智能体对齐失败。社会影响团队发布了基于 81,000 名用户反馈的 AI 使用研究。前沿红队分析了前沿模型在网络安全、生物安全和自主系统方面的影响。这些工作共同推动了更安全、更透明的 AI 发展。AI模型Anthropic可解释性对齐社会影响AI安全10 个信源在谈推荐理由:Anthropic 的可解释性研究让 Claude 的思维过程透明化,做 AI 安全或模型调试的开发者值得关注。对齐团队的智能体对齐研究对构建可靠 AI 代理的团队有直接参考价值。原文
21:36Anthropic: Research(资讯)Anthropic 发布了其可解释性研究团队的官方页面,集中展示了团队在理解神经网络内部工作机制方面的核心工作。该团队致力于揭示 AI 模型如何做出决策、学习概念以及可能产生偏见,从而提升 AI 系统的安全性和可控性。页面介绍了团队的研究方向、关键成果以及开放职位,体现了 Anthropic 对 AI 安全与透明度的长期投入。对于关注 AI 安全、模型可解释性以及前沿研究的读者,这是一个重要的资源入口。行业可解释性AI安全Anthropic神经网络透明度3 个信源在谈推荐理由:Anthropic 的可解释性工作是理解 AI 黑箱的关键,做 AI 安全或模型研究的团队值得收藏这个页面,直接了解最新成果和加入机会。原文
21:36Anthropic: Research(资讯)Anthropic 发布了其对齐研究团队的介绍页面,展示了团队在 AI 安全与对齐领域的研究方向与成果。该团队专注于确保 AI 系统与人类价值观保持一致,包括可解释性、鲁棒性、监督与治理等关键领域。通过公开团队构成和研究重点,Anthropic 希望推动行业对 AI 对齐问题的关注与合作。这对于理解前沿 AI 公司如何应对安全挑战具有重要参考价值。行业AI 安全对齐研究Anthropic可解释性AI 治理3 个信源在谈推荐理由:Anthropic 公开其对齐研究团队,为关注 AI 安全的开发者与研究者提供了了解前沿安全实践的机会,值得深入阅读。原文
21:36Anthropic: Research(资讯)75°Anthropic 发布了一项新研究,通过自然语言自编码器将 Claude 的内部数值表示转化为人类可读的文本。该方法训练模型将其“思考”过程翻译成自然语言,使得原本难以解释的神经网络内部状态变得透明。这标志着 AI 可解释性研究的重要进展,有助于理解模型如何做出决策。研究团队展示了该方法在多个任务上的有效性,为未来更安全的 AI 系统奠定了基础。论文可解释性自编码器ClaudeAI安全Anthropic10 个信源在谈推荐理由:这项研究让 AI 的“黑箱”思考变得可读,对关注 AI 安全与可解释性的研究者和开发者来说,是理解模型行为的关键一步,值得深入阅读。原文
21:35Anthropic: Transformer Circuits(资讯)Anthropic 的 Transformer Circuits 团队发布了 2024 年 9 月更新,包含两项小型研究进展。一是对“继任头”(successor heads)的深入调查,探索其在模型中的角色与机制;二是关于稀疏自编码器(SAE)中过采样数据的影响分析。这些更新延续了团队对神经网络可解释性的持续探索,为理解 Transformer 内部运作提供了新视角。对于关注 AI 安全与模型透明度的研究者而言,这些细节有助于改进模型监控与调试方法。论文可解释性Transformer Circuits稀疏自编码器继任头AI安全3 个信源在谈推荐理由:Anthropic 的可解释性团队持续输出硬核研究,做 AI 安全或模型调试的开发者值得跟进——继任头和 SAE 过采样是理解 Transformer 内部机制的关键拼图。原文
21:35Anthropic: Transformer Circuits(资讯)Anthropic 的 Transformer Circuits 团队发布了一篇技术笔记,探讨如何利用字典学习(Dictionary Learning)提取的稀疏特征来构建有害内容分类器。研究发现,基于这些特征训练的分类器在检测有害性上优于直接使用模型原始激活值的分类器,且更具可解释性。这项工作为构建更安全、更可控的 AI 系统提供了新思路,尤其适用于需要细粒度内容审核的场景。论文字典学习特征分类器AI安全可解释性Anthropic3 个信源在谈推荐理由:做 AI 安全和对齐的团队可以关注——字典学习特征让分类器更准更可解释,比直接用原始激活值靠谱,值得在内容审核场景里试试。原文
21:35Anthropic: Transformer Circuits(资讯)Transformer Circuits 发布了一篇关于模型差异分析(model diffing)的初步研究笔记,提出了一种通过字典微调(dictionary fine-tuning)实现阶段式模型差异分析的方法。该方法旨在帮助研究人员理解不同训练阶段或不同微调策略下模型内部表示的变化。通过将模型分解为稀疏特征并比较这些特征在不同版本间的差异,可以更精确地定位模型行为变化的原因。这项工作对于理解模型可解释性和安全性具有重要意义,为后续研究提供了新的分析工具。论文模型差异分析字典微调可解释性Transformer Circuits安全研究推荐理由:做模型可解释性和安全研究的团队可以关注,这篇笔记提出了一种新的模型差异分析方法,能帮你更精准地定位模型行为变化的原因,值得一读。原文
21:35Anthropic: Transformer Circuits(资讯)Transformer Circuits 团队发布了 2024 年 8 月的更新,包含一系列小型进展。主要更新包括:可解释性评估(interpretability evals)的初步框架,用于衡量模型内部机制的可解释性;以及自解释(self-explanation)机制的复现工作,探索模型如何解释自身行为。这些工作为理解大型语言模型的内部运作提供了新工具和方法,有助于推动 AI 安全与可解释性研究。论文可解释性Transformer Circuits评估框架自解释AI安全推荐理由:对于从事 AI 可解释性研究的开发者,这些更新提供了评估模型内部机制的新工具,值得关注并尝试应用到自己的工作中。原文
21:35Anthropic: Transformer Circuits(资讯)Transformer Circuits 团队发布了一篇关于使用交叉编码器(crosscoders)进行模型差异分析(model diffing)的初步研究笔记。该方法通过训练一个共享的稀疏自编码器来比较两个不同模型的内部表示,从而识别出它们在特征层面的差异。这项工作为理解模型训练过程中的变化、模型合并以及安全对齐提供了新的分析工具。目前该研究仍处于早期阶段,但展示了在可解释性领域的一种实用方法。论文可解释性交叉编码器模型差异分析Transformer Circuits安全对齐推荐理由:对于从事 AI 可解释性、模型对齐或安全研究的团队,这篇笔记提供了一种直接比较模型内部表示的新工具,值得关注其后续发展。原文
21:35Anthropic: Transformer Circuits(资讯)Anthropic 研究团队提出 Sparse Crosscoders,一种从 Transformer 模型中提取跨层一致特征的新方法。该方法通过稀疏编码器同时分析多个层的激活,能够识别出在不同层甚至不同模型中共享的特征。这为理解模型内部表示、比较不同模型之间的差异提供了工具。初步实验表明,Crosscoders 能有效发现跨层特征,并用于模型差异分析。论文可解释性稀疏编码跨层特征模型差异Transformer1 个信源在谈推荐理由:想理解大模型内部机制的研究者有了新工具——Sparse Crosscoders 能跨层甚至跨模型提取一致特征,做可解释性分析的建议点开看看。原文
21:35Anthropic: Transformer Circuits(资讯)85°Anthropic 发布了一项关于 Claude 3.5 Haiku 内部机制的研究,将其类比为生物学研究。他们通过构建“归因图”来追踪模型在多种任务中的推理路径,发现模型内部存在类似生物体的模块化结构和功能分工。这项研究揭示了大型语言模型如何从输入到输出逐步构建理解,例如在数学推理中,模型会先识别问题类型,再调用特定计算模块。该工作为理解 AI 黑箱提供了新视角,有助于提升模型的可解释性和安全性。论文可解释性归因图Claude 3.5 Haiku模型内部机制Anthropic10 个信源在谈推荐理由:Anthropic 把模型内部机制当生物系统来研究,做 AI 可解释性的人会看到新方法论,关心模型安全性的团队值得关注。原文
21:35Anthropic: Transformer Circuits(资讯)Anthropic 的 Circuits 团队发布了2025年4月的小更新合集,涵盖三个方向:越狱机制、密集特征和可解释性入门。他们发现模型越狱与特定神经元的激活模式相关,并提出了新的防御思路。同时,团队揭示了模型中存在大量密集特征,这些特征对理解模型行为至关重要。此外,他们还提供了可解释性研究的入门指南,帮助新研究者快速上手。这些更新为AI安全与透明性提供了实用工具和方法。论文可解释性越狱密集特征AnthropicAI安全3 个信源在谈推荐理由:Anthropic 的 Circuits 团队把越狱和密集特征的研究门槛降低了,做AI安全或模型可解释性的研究者可以直接参考他们的新发现和入门指南。原文
21:35Anthropic: Transformer Circuits(资讯)70°Anthropic 团队提出了一种名为 Circuit Tracing 的方法,能够追踪语言模型在处理单个提示时的“逐步”计算过程。该方法通过构建归因图(attribution graphs),将模型内部的复杂计算分解为可解释的步骤。这项技术有助于理解模型如何从输入到输出进行推理,为模型的可解释性和安全性研究提供了新工具。论文详细介绍了方法原理和实验验证,展示了在多个模型上的应用效果。论文可解释性计算图归因图Anthropic模型安全1 个信源在谈推荐理由:做 AI 可解释性研究的团队终于有了一个能看清模型内部推理步骤的方法——Circuit Tracing 把黑箱计算拆成了可追踪的图结构,建议关注模型安全的研究者点开看看。原文
21:35Anthropic: Transformer Circuits(资讯)70°Anthropic 在 Transformer Circuits 博客上发布了关于注意力机制的最新研究进展。文章深入分析了注意力头在模型中的具体行为,包括如何聚焦于特定 token、如何形成注意力模式,以及这些模式如何影响模型的推理和生成能力。研究发现注意力机制中存在可解释的结构,有助于理解模型内部运作。这项工作对提升 AI 安全性和可解释性具有重要意义。论文注意力机制可解释性AI安全Transformer CircuitsAnthropic3 个信源在谈推荐理由:理解注意力机制是解读大模型行为的关键,做 AI 安全或模型可解释性研究的团队值得关注这篇技术更新。原文
21:35Anthropic: Transformer Circuits(资讯)Kamath 等人提出了一种新方法,通过特征交互来解释 Transformer 中的注意力模式,并将这些信息整合到归因图中。该方法能够揭示注意力头如何基于输入特征之间的相互作用来分配权重,而不仅仅是基于单个特征。这为理解 Transformer 内部机制提供了更细粒度的视角,有助于模型可解释性研究。论文展示了该方法在多个任务上的应用,证明了其有效性。论文Transformer可解释性注意力机制特征交互归因图推荐理由:做 Transformer 可解释性研究的团队终于有了一个能深入分析注意力机制的工具,建议点开看看具体方法。原文
21:35Anthropic: Transformer Circuits(资讯)Anthropic 的 Transformer Circuits 团队发布了一篇研究,通过一个玩具模型探讨了 transcoder(一种用于解释神经网络内部表示的稀疏自编码器变体)在什么情况下会变得不忠实。研究发现,当模型需要表示的特征数量超过 transcoder 的容量时,它可能会学习到虚假的、不存在的特征,从而产生误导性的解释。这项工作揭示了当前可解释性方法的一个根本性局限:即使模型看起来工作良好,其内部表示也可能与真实计算过程脱节。这对于依赖这些工具来理解 AI 系统行为的研究者来说是一个重要警示。论文可解释性transcoder稀疏自编码器忠实性Anthropic1 个信源在谈推荐理由:做 AI 可解释性研究的人会直接受益——这篇论文揭示了 transcoder 可能产生虚假特征的根本原因,看完会对现有方法的可靠性有更清醒的认识。建议所有用稀疏自编码器做模型分析的人点开。原文