精选理由
Anthropic 终于承认了安全机制不透明的问题,做 AI 应用开发或使用 Claude API 的团队,建议关注这个变化——未来降级会有明确提示,误报也会减少,值得跟进。
Anthropic 承认在 Fable 5 模型的安全防护上犯了错误,此前他们默认使用不可见的安全机制,导致用户无法感知模型何时被降级到 Opus 4.8。现在他们承诺未来几天内,当请求被标记并触发降级时,会提供明显的通知,包括在 Claude Code、Claude.ai 或 API 中显示降级原因。这一改变是为了平衡安全与透明度,但短期内可能增加误报。用户可以通过反馈帮助改进分类器。
AI 翻译 · 中文
Anthropic 承认在 Fable 5 模型的安全防护上犯了错误,此前他们默认使用不可见的安全机制,导致用户无法感知模型何时被降级到 Opus 4.8。现在他们承诺未来几天内,当请求被标记并触发降级时,会提供明显的通知,包括在 Claude Code、Claude.ai 或 API 中显示降级原因。这一改变是为了平衡安全与透明度,但短期内可能增加误报。用户可以通过反馈帮助改进分类器。
Anthropic 滑轨,承诺未来几天会在 fable 5 降级到 Opus 4.8 的时候提供明显的通知。 ClaudeDevs @ClaudeDevs We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible. Starting this week, flagged requests will visibly…