精选理由
白宫测了Anthropic的Claude(代号Fable),发现它不帮你找漏洞但愿意直接修代码。安全专家说这反而是正常防御,挺反直觉的。
白宫发布关于Anthropic模型Fable(即Claude)的越狱测试报告。网络安全专家Katie Moussouris指出,当被要求“审查代码的安全问题”时,Fable拒绝执行,但改为“修复此代码”的指令后,模型反而配合完成。Moussouris认为这只是模型按预期工作的安全防御行为。该事件凸显了AI安全测试中提示词工程的重要性。
AI 翻译 · 中文
白宫发布关于Anthropic模型Fable(即Claude)的越狱测试报告。网络安全专家Katie Moussouris指出,当被要求“审查代码的安全问题”时,Fable拒绝执行,但改为“修复此代码”的指令后,模型反而配合完成。Moussouris认为这只是模型按预期工作的安全防御行为。该事件凸显了AI安全测试中提示词工程的重要性。
Katie Moussouris, a cybersecurity expert and the CEO of Luta Security, told me that Anthropic shared with her a copy of the White House’s report on the Fable jailbreak to get her appraisal. (She said that she is not bein…