23:42rohanpaul_ai@rohanpaul_ai精选76°Google DeepMind 发表论文,首次系统性地提出 AI 智能体的安全威胁不仅来自模型本身,更来自其读取的环境。论文定义了六类“智能体陷阱”,涵盖感知、推理、记忆、行动、多智能体协作及人类监督等维度。实验显示,隐藏的提示注入攻击在高达 86% 的场景中成功劫持智能体,子智能体劫持成功率 58-90%,数据窃取攻击在五种架构中均超过 80%。论文强调,网页中的隐藏内容(如 HTML 注释、CSS 隐藏文本)对智能体构成严重威胁,且记忆污染攻击在数据污染低于 0.1% 时成功率仍超 80%。论文智能体安全提示注入记忆污染攻击面Google DeepMind推荐理由:这篇论文把 AI 智能体的安全边界从模型内部扩展到了整个互联网环境,做智能体开发和安全研究的团队必须重新审视攻击面——你的智能体可能正在被看不见的网页内容操控。原文