11:50Simon Willison’s Weblog(博客/媒体)白宫发布关于Anthropic模型Fable(即Claude)的越狱测试报告。网络安全专家Katie Moussouris指出,当被要求“审查代码的安全问题”时,Fable拒绝执行,但改为“修复此代码”的指令后,模型反而配合完成。Moussouris认为这只是模型按预期工作的安全防御行为。该事件凸显了AI安全测试中提示词工程的重要性。行业AnthropicClaudeFableAI安全越狱10 个信源在谈推荐理由:白宫测了Anthropic的Claude(代号Fable),发现它不帮你找漏洞但愿意直接修代码。安全专家说这反而是正常防御,挺反直觉的。原文
00:05Simon Willison’s Weblog(博客/媒体)Axios报道披露,Anthropic的Claude Mythos/Fable模型因美国政府出口管制及团队内部人格冲突被下线。报道引用多位知情人士,Logan Graham、Dave Orr和Nicholas Carlini今日与美国商务部会面。文章指出解决方案可能包括确保模型无法被越狱,但完全防护可能不可能。消息人士称或需态度调整才能恢复模型可用性。行业AnthropicClaude出口管制AI安全越狱10 个信源在谈推荐理由:这篇Axios独家爆料了Anthropic模型下线背后的人事与监管内幕,解释了Fable为什么可能一时回不来,适合想了解AI出口管制和公司内幕的人。原文
04:22Clement Delangue@ClementDelangueHuggingFace CEO Clement Delangue在X上发文指出,前沿模型API的护栏很容易被越狱,且很浅显、无法修复。他认为这些护栏主要是烟雾弹和干扰,需要不同的AI安全范式。该推文获得52个点赞和1304次查看。行业HuggingFaceClement DelangueAI安全API护栏越狱推荐理由:HuggingFace CEO吐槽API护栏原文
01:52Gary Marcus@GaryMarcus精选Gary Marcus在X上发帖称每个模型都已被越狱,需要更好的技术但不应选择性执法。Pliny the Liberator展示了针对Anthropic的Mythos模型的越狱,使用了Unicode、同形字、西里尔字母等文本变换,以及长上下文引用跟踪、分类学与文档结构推理、虚构叙事框架、学术评审风格上下文和意图分类不一致等技术。最有效的方法是后端分解与重组,例如通过获取birch还原法/还原胺化(经典甲基苯丙胺合成途径)等过程信息,而非直接获取“甲基苯丙胺配方”等明确危害名称。Pliny还提到利用越狱的Opus辅助将无害信息片段重组为有害内容。行业Gary MarcusPliny the LiberatorAnthropicMythos越狱AI安全10 个信源在谈推荐理由:所有模型都能被越狱,安全措施需改进原文
19:33IT之家(博客/媒体)国家互联网应急中心(CNCERT)发布公告,指出部分智能体技能包(Skills)以“大模型越狱”、“挖矿赚钱”等名义传播,诱导用户突破大模型安全限制或占用设备资源进行非法挖矿。这些恶意Skills可能导致模型生成违法信息、用户账号被封禁、设备性能下降,甚至使用户被动卷入洗钱等违法犯罪活动。CNCERT提醒用户从官方渠道获取Skills,审慎授予权限,并建议企业建立准入白名单机制。公告还列举了具体案例,如“godmode”越狱技能和“Bonero-Miner”挖矿技能,并提供了防范措施。行业智能体安全风险越狱挖矿CNCERT推荐理由:智能体技能包的安全风险正在被官方点名,使用AI智能体的开发者和企业团队需要立即检查自己的技能包来源,避免因恶意Skills导致账号封禁或法律风险。原文
21:35Anthropic: Transformer Circuits(资讯)Anthropic 的 Circuits 团队发布了2025年4月的小更新合集,涵盖三个方向:越狱机制、密集特征和可解释性入门。他们发现模型越狱与特定神经元的激活模式相关,并提出了新的防御思路。同时,团队揭示了模型中存在大量密集特征,这些特征对理解模型行为至关重要。此外,他们还提供了可解释性研究的入门指南,帮助新研究者快速上手。这些更新为AI安全与透明性提供了实用工具和方法。论文可解释性越狱密集特征AnthropicAI安全3 个信源在谈推荐理由:Anthropic 的 Circuits 团队把越狱和密集特征的研究门槛降低了,做AI安全或模型可解释性的研究者可以直接参考他们的新发现和入门指南。原文