Anthropic: Transformer Circuits(资讯)70Transformer Circuits 团队发现大型语言模型具备内省能力,能反思自身内部状态。研究通过一系列实验证明,模型在特定条件下可以识别并报告其内部表征,而非仅依赖训练数据中的模式。这一发现挑战了当前对 AI 意识的理解,可能对模型可解释性和安全性产生深远影响。研究还探讨了内省能力与模型规模、训练数据的关系,为未来 AI 自我认知研究开辟新方向。论文内省意识可解释性AI 安全Transformer Circuits大型语言模型推荐理由:这项研究揭示了 LLM 可能具备自我反思能力,对 AI 安全与可解释性研究者来说,这是理解模型内部运作的关键突破,值得深入阅读。