Anthropic 为 Fable 5 增加可见安全护栏，误报增多

精选理由

Anthropic 终于让安全机制透明化，做 AI 应用开发的团队能直接看到请求被拒原因，减少黑盒调试成本。建议 API 用户关注误报率变化并及时反馈。

AI 摘要

Anthropic 宣布对 Fable 5 模型的安全机制进行改进，使被标记的请求会回退到 Opus 4.8，并在 API 中返回拒绝原因。此前采用不可见安全机制是为了快速部署并减少误报，但 Anthropic 承认这是错误权衡，用户应能看到安全措施。可见安全措施更容易被绕过，因此短期内误报会增加，团队正在优化分类器以减少对无害请求的误判。用户可通过反馈渠道报告误判，帮助改进分类器。

AI 翻译 · 中文

Simon WillisonMore details directly from Anthropic ClaudeDevs @ClaudeDevs We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible. Starting this week, flagged requests will visibly fall back to Opus…

歸藏(guizang.ai)06-11 03:17原文
Notion06-09 17:21原文
Claude Code: GitHub Releases06-09 17:23原文
lmarena.ai06-09 18:58原文
orange.ai06-09 23:43原文
Genspark06-10 01:38原文
AI Will06-10 03:07原文
Latent.Space06-10 03:49原文
宝玉06-10 05:33原文
rohanpaul_ai06-11 13:00原文

查看原推