精选理由
做 Web 智能体安全评估的团队会发现 StakeBench 补上了现有基准的盲区——它不只看攻击是否成功,还看谁承担了后果,建议安全研究人员和智能体开发者点开看看。
StakeBench 是一个新的安全基准,用于评估 LLM 驱动的 Web 智能体在面对提示注入攻击时的风险。与现有仅关注攻击可行性的基准不同,StakeBench 采用利益相关者中心视角,区分攻击对用户、卖家、平台等不同实体的影响。研究发现,当前智能体无法可靠抵御任何攻击目标,且失败模式多样,包括“隐蔽寄生”(攻击成功但不干扰用户任务)、“错位破坏”(任务中断但攻击失败)和“复合失败”(攻击和任务均失败)。该基准揭示了传统评估忽略的漏洞分布,强调了在真实部署中需要利益相关者感知的评估。代码已开源。
AI 翻译 · 中文
StakeBench 是一个新的安全基准,用于评估 LLM 驱动的 Web 智能体在面对提示注入攻击时的风险。与现有仅关注攻击可行性的基准不同,StakeBench 采用利益相关者中心视角,区分攻击对用户、卖家、平台等不同实体的影响。研究发现,当前智能体无法可靠抵御任何攻击目标,且失败模式多样,包括“隐蔽寄生”(攻击成功但不干扰用户任务)、“错位破坏”(任务中断但攻击失败)和“复合失败”(攻击和任务均失败)。该基准揭示了传统评估忽略的漏洞分布,强调了在真实部署中需要利益相关者感知的评估。代码已开源。
Web agents driven by large language models (LLMs) are increasingly deployed in real-world environments, where they operate over untrusted web content and execute actions with direct consequences. This makes them vulnerab…