Anthropic 为 Fable 5 增加可见安全护栏,误报增多

More details directly from Anthropic

精选理由

Anthropic 终于让安全机制透明化,做 AI 应用开发的团队能直接看到请求被拒原因,减少黑盒调试成本。建议 API 用户关注误报率变化并及时反馈。

AI 摘要

Anthropic 宣布对 Fable 5 模型的安全机制进行改进,使被标记的请求会回退到 Opus 4.8,并在 API 中返回拒绝原因。此前采用不可见安全机制是为了快速部署并减少误报,但 Anthropic 承认这是错误权衡,用户应能看到安全措施。可见安全措施更容易被绕过,因此短期内误报会增加,团队正在优化分类器以减少对无害请求的误判。用户可通过反馈渠道报告误判,帮助改进分类器。

AI 翻译 · 中文

Anthropic 宣布对 Fable 5 模型的安全机制进行改进,使被标记的请求会回退到 Opus 4.8,并在 API 中返回拒绝原因。此前采用不可见安全机制是为了快速部署并减少误报,但 Anthropic 承认这是错误权衡,用户应能看到安全措施。可见安全措施更容易被绕过,因此短期内误报会增加,团队正在优化分类器以减少对无害请求的误判。用户可通过反馈渠道报告误判,帮助改进分类器。

Simon WillisonMore details directly from Anthropic ClaudeDevs @ClaudeDevs We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible. Starting this week, flagged requests will visibly fall back to Opus