精选理由
Anthropic 终于让安全机制透明化,做 AI 应用开发的团队能直接看到请求被拒原因,减少黑盒调试成本。建议 API 用户关注误报率变化并及时反馈。
Anthropic 宣布对 Fable 5 模型的安全机制进行改进,使被标记的请求会回退到 Opus 4.8,并在 API 中返回拒绝原因。此前采用不可见安全机制是为了快速部署并减少误报,但 Anthropic 承认这是错误权衡,用户应能看到安全措施。可见安全措施更容易被绕过,因此短期内误报会增加,团队正在优化分类器以减少对无害请求的误判。用户可通过反馈渠道报告误判,帮助改进分类器。
AI 翻译 · 中文
Anthropic 宣布对 Fable 5 模型的安全机制进行改进,使被标记的请求会回退到 Opus 4.8,并在 API 中返回拒绝原因。此前采用不可见安全机制是为了快速部署并减少误报,但 Anthropic 承认这是错误权衡,用户应能看到安全措施。可见安全措施更容易被绕过,因此短期内误报会增加,团队正在优化分类器以减少对无害请求的误判。用户可通过反馈渠道报告误判,帮助改进分类器。
More details directly from Anthropic ClaudeDevs @ClaudeDevs We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible. Starting this week, flagged requests will visibly fall back to Opus…