论文精选

Circuits 2025年11月更新:聚焦harm pressure

Circuits Updates — November 2025 A short update on harm pressure.

精选理由

Anthropic的电路分析新进展

AI 摘要

Anthropic 在2025年11月发布Circuits项目更新,专门研究 harm pressure。该更新通过 mechanistic interpretability 分析模型内与有害内容相关的电路。研究可能涉及 Claude 模型内部的 harm 检测回路。相关方法旨在量化模型在生成有害输出时的压力信号。

AI 翻译 · 中文

Anthropic 在2025年11月发布Circuits项目更新,专门研究 harm pressure。该更新通过 mechanistic interpretability 分析模型内与有害内容相关的电路。研究可能涉及 Claude 模型内部的 harm 检测回路。相关方法旨在量化模型在生成有害输出时的压力信号。