StakeBench：面向真实Web智能体的利益相关者中心提示注入基准

精选理由

做 Web 智能体安全评估的团队会发现 StakeBench 补上了现有基准的盲区——它不只看攻击是否成功，还看谁承担了后果，建议安全研究人员和智能体开发者点开看看。

AI 摘要

StakeBench 是一个新的安全基准，用于评估 LLM 驱动的 Web 智能体在面对提示注入攻击时的风险。与现有仅关注攻击可行性的基准不同，StakeBench 采用利益相关者中心视角，区分攻击对用户、卖家、平台等不同实体的影响。研究发现，当前智能体无法可靠抵御任何攻击目标，且失败模式多样，包括“隐蔽寄生”（攻击成功但不干扰用户任务）、“错位破坏”（任务中断但攻击失败）和“复合失败”（攻击和任务均失败）。该基准揭示了传统评估忽略的漏洞分布，强调了在真实部署中需要利益相关者感知的评估。代码已开源。

AI 翻译 · 中文

arXiv cs.AIWeb agents driven by large language models (LLMs) are increasingly deployed in real-world environments, where they operate over untrusted web content and execute actions with direct consequences. This makes them vulnerab…

阅读原文