11:50Simon Willison’s Weblog(博客/媒体)白宫发布关于Anthropic模型Fable(即Claude)的越狱测试报告。网络安全专家Katie Moussouris指出,当被要求“审查代码的安全问题”时,Fable拒绝执行,但改为“修复此代码”的指令后,模型反而配合完成。Moussouris认为这只是模型按预期工作的安全防御行为。该事件凸显了AI安全测试中提示词工程的重要性。行业AnthropicClaudeFableAI安全越狱10 个信源在谈推荐理由:白宫测了Anthropic的Claude(代号Fable),发现它不帮你找漏洞但愿意直接修代码。安全专家说这反而是正常防御,挺反直觉的。原文
00:05Simon Willison’s Weblog(博客/媒体)Axios报道披露,Anthropic的Claude Mythos/Fable模型因美国政府出口管制及团队内部人格冲突被下线。报道引用多位知情人士,Logan Graham、Dave Orr和Nicholas Carlini今日与美国商务部会面。文章指出解决方案可能包括确保模型无法被越狱,但完全防护可能不可能。消息人士称或需态度调整才能恢复模型可用性。行业AnthropicClaude出口管制AI安全越狱10 个信源在谈推荐理由:这篇Axios独家爆料了Anthropic模型下线背后的人事与监管内幕,解释了Fable为什么可能一时回不来,适合想了解AI出口管制和公司内幕的人。原文
19:33IT之家(博客/媒体)国家互联网应急中心(CNCERT)发布公告,指出部分智能体技能包(Skills)以“大模型越狱”、“挖矿赚钱”等名义传播,诱导用户突破大模型安全限制或占用设备资源进行非法挖矿。这些恶意Skills可能导致模型生成违法信息、用户账号被封禁、设备性能下降,甚至使用户被动卷入洗钱等违法犯罪活动。CNCERT提醒用户从官方渠道获取Skills,审慎授予权限,并建议企业建立准入白名单机制。公告还列举了具体案例,如“godmode”越狱技能和“Bonero-Miner”挖矿技能,并提供了防范措施。行业智能体安全风险越狱挖矿CNCERT推荐理由:智能体技能包的安全风险正在被官方点名,使用AI智能体的开发者和企业团队需要立即检查自己的技能包来源,避免因恶意Skills导致账号封禁或法律风险。原文