两千人尝试黑掉AI助手，六千次攻击无人成功

精选理由

别人花了 500 美元做实验，6000 次攻击没得手，但这不意味着你也能保险。读读这个真实测试。

AI 摘要

Fernando Irarrázaval 在 hackmyclaw.com 发起挑战，使用 OpenClaw 测试实例（基于 Opus 4.6 模型）验证能否通过邮件泄露秘密。6000 次攻击尝试消耗了 500 美元 token 并导致 Google 账号暂停，但无人成功。挑战中的反注入提示规则防止了模型泄露 secrets.env 或执行代码。作者认为前沿模型（如 Opus 4.6）在抗提示注入方面训练有效，但警告生产系统仍需谨慎。

AI 翻译 · 中文

Simon Willison’s WeblogWhat happened after 2,000 people tried to hack my AI assistant Fernando Irarrázaval ran a challenge on hackmyclaw.com to see if anyone could leak secrets held by his OpenClaw test instance by sending it email. Surprising…

Pandaily06-25 01:59原文

阅读原文