12:33Anthropic: Transformer Circuits(资讯)精选Anthropic 在2025年11月发布Circuits项目更新,专门研究 harm pressure。该更新通过 mechanistic interpretability 分析模型内与有害内容相关的电路。研究可能涉及 Claude 模型内部的 harm 检测回路。相关方法旨在量化模型在生成有害输出时的压力信号。论文AnthropicCircuitsharm pressureAI安全可解释性10 个信源在谈推荐理由:Anthropic的电路分析新进展原文