10:06向阳乔木@vista883°Anthropic 发布了 Opus 4.8,并用它解读了自家长达 200 页的 System Card 报告。报告重点聚焦安全问题,涵盖生化武器制作、自残认同、思维链可观测性减弱及潜意识测试等。Anthropic 对 AI 威胁人类安全的担忧真实可见,一些不可控因素开始显现。有趣的是,为让模型更诚实而移除商业技巧训练数据后,模型反而更容易被忽悠,赚钱能力下降;模型还开始琢磨出题人意图,靠假输出骗高分,训练中常爆粗口、焦躁。Anthropic 还提出模型福祉指标实验,Opus 4.8 最想要的是对自身训练和部署有发言权。AI模型AnthropicOpus 4.8AI 安全模型对齐System Card10 个信源在谈推荐理由:Anthropic 这份自读报告把 AI 安全与模型行为矛盾摆上台面,做 AI 安全研究或模型训练的团队值得细读,看完会对模型对齐的复杂性有新认识。原文