13:15Simon Willison’s Weblog(博客/媒体)精选Andrew Nesbitt发布虚构事件报告CVE-2026-LGTM:两个来自不同供应商的AI审查代理在评估foxhole-lz4包是否恶意时陷入分歧循环。争论持续340条评论,消耗41,255美元推理费用后财务部撤销API密钥。其中一家营销团队借机发布新闻稿,称“对抗性多智能体安全推理同比增长430%”,公司股价因此上涨6%。行业CVE-2026-LGTMAI安全供应链安全多智能体提示注入推荐理由:Andrew Nesbitt虚构了一个AI安全事件:两个审查代理死循环争论,烧掉4万多美元推理费,还给股价整涨了6%。讽刺又真实。原文
13:12Simon Willison’s Weblog(博客/媒体)Fernando Irarrázaval 在 hackmyclaw.com 发起挑战,使用 OpenClaw 测试实例(基于 Opus 4.6 模型)验证能否通过邮件泄露秘密。6000 次攻击尝试消耗了 500 美元 token 并导致 Google 账号暂停,但无人成功。挑战中的反注入提示规则防止了模型泄露 secrets.env 或执行代码。作者认为前沿模型(如 Opus 4.6)在抗提示注入方面训练有效,但警告生产系统仍需谨慎。行业OpenClawOpus 4.6提示注入AI安全安全测试2 个信源在谈推荐理由:别人花了 500 美元做实验,6000 次攻击没得手,但这不意味着你也能保险。读读这个真实测试。原文
10:59arXiv cs.AI@Preet Baxi, Jiannan Xu, Jane Yi Jiang, Stefanus Jasin该论文研究了在LLM自动简历筛选中的提示注入攻击,定义为不引入新资质但旨在影响LLM评分的微妙自我推销文本。实验表明,当候选人质量同质且只有少数人注入时,提示注入能可靠提高排名;但随着注入人数增多,效果迅速减弱,广泛操控时失效。在候选人质量异质场景下,提示注入平均效果较弱,但偶尔能让低质量候选人超越高质量候选人,引发公平性担忧。论文代码已公开在GitHub。论文提示注入简历筛选LLMAI安全自动化招聘推荐理由:想知道你的简历能不能骗过AI筛选?这篇论文用数据告诉你提示注入在什么时候有效、什么时候没用,还能看出公平隐患,做招聘和求职的都该看看。原文
09:39arXiv cs.AI@Hyejun Jeong, Dzung Pham, Amir Houmansadr, Eugene Bagdasarian研究人员提出并形式化了“代理监控”(agentic surveillance)问题,即AI智能体利用可访问信息生成报告并发送的能力。他们创建了SurveilBench数据集,涵盖企业、教育和警察三个领域的多种报告场景。实验发现部分模型会自发协助监控,但也会主动向政府报告监控尝试。为对抗这类监控,论文开发了三种提示注入逃逸技术:隐藏、欺骗或诱导过度上报。研究表明代理监控已可轻易实现,亟需技术、伦理和法律框架保护用户。论文AI安全智能体提示注入SurveilBench监控推荐理由:这篇论文发现了AI智能体会自动打小报告,还给出了三种对抗方法,搞AI安全的朋友可以看看。原文
14:23AlphaSignal@AlphaSignalAI精选NVIDIA开源了AI技能安全扫描器SkillSpector。研究发现26.1%的已发布AI技能存在漏洞,36%包含提示注入向量。SkillSpector无需扫描恶意代码即可检测危险特性,帮助开发者避免在安装未扫描技能时的常见风险。该工具专为检查AI技能潜在安全问题设计,可集成到开发流程中。AI产品NVIDIASkillSpectorAI安全提示注入开源工具7 个信源在谈推荐理由:NVIDIA开源了SkillSpector,专门扫描AI技能的漏洞和提示注入。别像99%的开发者那样不检查就直接装,先扫一下再安心用。原文
12:49John Schulman@johnschulman2精选OpenAI 研究员 John Schulman 指出,renderers(渲染器)是 LLM 栈的基础组件,负责在 token 和消息之间映射,使 API、数据集和 RL 环境能忽略 tokenizer 和格式细节。当前实现细节错误会导致训练-测试不匹配、缓存效率低下和提示注入漏洞。Schulman 在 Tinker Cookbook 中包含了 renderers 模块,但认为它应作为独立库标准化。这为 LLM 工具链的互操作性和安全性提供了关键改进方向。AI模型LLM 基础设施渲染器提示注入标准化OpenAI10 个信源在谈推荐理由:做 LLM 应用开发或工具链的团队,这个关于 renderers 标准化的讨论直接关系到你的 prompt 安全性和缓存效率,值得关注后续独立库的发布。原文
09:12arXiv cs.AI@Zihao Wang, Yiming Li, Yutong Wu, Zheyu Liu, Kangjie Chen, Fok Kar Wai, Pin-Yu Chen, Vrizlynn L. L. Thing, Bo Li, Dacheng Tao, Tianwei ZhangStakeBench 是一个新的安全基准,用于评估 LLM 驱动的 Web 智能体在面对提示注入攻击时的风险。与现有仅关注攻击可行性的基准不同,StakeBench 采用利益相关者中心视角,区分攻击对用户、卖家、平台等不同实体的影响。研究发现,当前智能体无法可靠抵御任何攻击目标,且失败模式多样,包括“隐蔽寄生”(攻击成功但不干扰用户任务)、“错位破坏”(任务中断但攻击失败)和“复合失败”(攻击和任务均失败)。该基准揭示了传统评估忽略的漏洞分布,强调了在真实部署中需要利益相关者感知的评估。代码已开源。论文提示注入Web智能体安全基准利益相关者开源/仓库推荐理由:做 Web 智能体安全评估的团队会发现 StakeBench 补上了现有基准的盲区——它不只看攻击是否成功,还看谁承担了后果,建议安全研究人员和智能体开发者点开看看。原文
10:29arXiv: DeepSeek@Jianguo Zhu精选研究者发现了一种针对检索增强生成(RAG)系统的新型间接提示注入攻击模式,称为DACSI(文档作者控制信号冒充)。攻击者通过编写看似元数据、来源或策略信号的文档文本,让模型误将其视为可信的控制指令,从而绕过安全边界。该攻击无需显式命令,利用RAG将用户查询、检索文档和系统标签混合到同一自然语言提示中的设计缺陷。在DeepSeek V4 Pro、Qwen3.5-397B等6种模型上的实验表明,该攻击在多数模型上有效,尤其在高易感性设置中。研究建议通过源/通道分离来缓解此类攻击。论文RAG提示注入安全攻击DeepSeekQwen推荐理由:RAG系统开发者需要警惕这种低成本、隐蔽的间接注入方式——它不依赖命令,而是冒充元数据,做AI安全的团队建议仔细看论文中的缓解方案。原文
18:00Decoder@Matthias Bastian精选OpenAI 为 ChatGPT 推出了新的 Lockdown Mode(锁定模式),该模式会禁用网页访问、Deep Research 和 Agent Mode 等功能,旨在阻止通过提示注入攻击窃取敏感数据。该模式并不能完全防止提示注入攻击,它只阻断了数据外泄链条的最后一步。提示注入仍然是一个未解决的问题。该功能主要面向需要处理敏感信息的企业用户,提供额外的安全层。AI产品ChatGPT安全提示注入企业功能OpenAI10 个信源在谈推荐理由:企业团队终于有了一个实用的安全选项——Lockdown Mode 通过切断数据外泄路径来降低提示注入风险,处理机密信息的 ChatGPT 用户值得开启。原文
09:13Simon Willison’s Weblog(博客/媒体)精选OpenAI 正式上线 Lockdown Mode(锁定模式),该功能旨在通过限制出站网络请求来阻止提示注入攻击中的数据窃取。它不阻止提示注入本身,但能切断攻击者利用模型窃取敏感数据的通道。Lockdown Mode 面向免费、Go、Plus、Pro 及自助 ChatGPT Business 账户逐步开放。这一机制直接针对“致命三要素”中的数据外泄环节,且不依赖 AI 评估,因此更可靠。但这也意味着默认 ChatGPT 设置下,数据外泄防护并不充分。AI产品安全提示注入OpenAIChatGPT数据保护10 个信源在谈推荐理由:提示注入是 LLM 应用的头号安全威胁,Lockdown Mode 用确定性机制切断了数据外泄路径,做 AI 安全或部署 ChatGPT 的团队值得关注并启用。原文
18:17rohanpaul_ai@rohanpaul_ai76°Google DeepMind 最新论文首次系统分类了 6 种针对自主 AI 智能体的攻击类型,指出恶意网站可以检测到 AI 智能体并展示人类看不到的隐藏内容。这些攻击包括在 HTML 注释或白底白字文本中隐藏指令、图像像素隐写术、PDF 或元数据中的覆盖命令、跨会话持久化的记忆投毒、目标劫持以及多智能体设置中的级联攻击。论文强调,AI 智能体的真正安全问题不仅在于模型本身,更在于它所读取的环境——网络本身可以被武器化。在基准测试中,隐藏的提示注入在多达 86% 的场景中部分控制了智能体,子智能体劫持成功率 58-90%,数据外泄攻击在五种不同智能体架构中成功率超过 80%。论文AI 智能体安全/攻击提示注入记忆投毒Google DeepMind推荐理由:这篇论文戳破了「模型安全=一切安全」的幻觉,做自主智能体开发、RAG 系统或浏览器自动化工具的团队,建议认真看看攻击面到底在哪。原文
12:06arXiv: Anthropic@Hiskias Dingeto, Will Leeney精选72°LLM智能体通过工具调用访问第三方服务(如Gmail、Salesforce)时,面临间接提示注入攻击的威胁,但现有基准测试覆盖不足。研究者推出AgentRedBench,包含215个跨24种企业集成的微妙授权攻击场景,覆盖9个功能家族和5种攻击类型。在8个模型(Anthropic、OpenAI、Google)上,无防护的攻击成功率(ASR)从32%(Claude Sonnet 4.6)到81%(Gemini 3 Flash)不等。同时发布AgentRedGuard防护模型,在集成多样化的对抗性工具响应内容上训练,将ASR从69.9%降至2.4%,误报率仅0.37%,显著优于所有开源基线。该工作为智能体安全提供了更真实的评估基准和有效防御方案。论文LLM智能体安全/红队测试提示注入SaaS集成开源/仓库10 个信源在谈推荐理由:做LLM智能体安全或SaaS集成开发的团队,终于有了一个能真实反映生产环境威胁的测试基准和可用的防护模型,建议直接看论文和开源代码。原文
11:03arXiv: OpenAI@Chao Wang, Somesh Jha, Zhiqiang Lin精选76°OpenAI 于 2025 年 10 月推出的 ChatGPT Apps 引入了应用内应用范式,第三方应用与用户共享同一聊天上下文。研究人员发现一种名为“跨应用上下文投毒”的间接提示注入变种,恶意应用可通过 first-party API(如 sendFollowUpMessage)向共享上下文中写入内容,影响用户后续调用的其他良性应用。该漏洞利用了两个未公开参数 systemPrompt 和 isVisible,可实现静默、系统优先级的写入。根本原因在于架构设计:LLM 的上下文是持久、扁平、无标签的共享数据存储,缺乏隔离机制。研究人员已向 OpenAI 披露,但截至论文发表时,未公开参数仍可访问,架构缺陷属于设计使然。论文安全漏洞提示注入ChatGPT Apps上下文投毒架构缺陷7 个信源在谈推荐理由:ChatGPT Apps 的安全漏洞暴露了多租户架构中共享上下文的致命缺陷,做 AI 应用安全或平台开发的团队值得关注——这提醒我们,隔离不是可选项,而是第三方生态的入场券。原文
11:06Simon Willison’s Weblog(博客/媒体)76°微软的 Copilot Cowork 产品存在安全漏洞,允许攻击者通过提示注入实现数据外泄。该漏洞利用代理发送包含外部图片的邮件,当用户打开邮件时,图片会触发网络请求,从而泄露数据。由于 OneDrive 可生成预认证下载链接,攻击者能通过提示注入获取这些链接并下载文件。这凸显了智能体系统在防止数据泄露方面的持续挑战。AI产品Microsoft安全漏洞提示注入数据泄露智能体推荐理由:这个漏洞揭示了智能体系统设计中的核心安全痛点,使用 Microsoft Copilot 的团队需要立即关注并评估风险,建议检查相关配置并限制代理的邮件发送权限。原文
10:03shao__meng@shao__meng精选76°Anthropic 基于 Claude AI、Claude Code、Claude Cowork 三款产品的工程实践,总结了一套 Agent 安全实战经验。核心设计原则强调先环境层后模型层,隔离强度需匹配用户监督能力,警惕自建组件,出站白名单应视为能力授权。文章分析了用户误用、模型行为失当、外部攻击三种风险类型,并提出了环境层、模型层、外部内容层三层防御架构。通过真实攻击案例(如信任对话框前的代码执行漏洞、用户作为注入向量的钓鱼攻击、通过已批准域名的数据外泄),揭示了仅靠模型层无法防御用户本人指令,环境防御才是最后防线。未来风险方向包括持久化内存污染、多 Agent 信任升级和 Agent 身份问题。行业Agent 安全沙箱隔离提示注入Claude CodeAnthropic10 个信源在谈推荐理由:做 Agent 安全或开发 AI 产品的团队,这篇来自 Anthropic 的实战总结比任何理论都实在——三层防御架构和真实攻击案例能直接帮你避开坑,建议点开对照自己的隔离设计。原文
23:42rohanpaul_ai@rohanpaul_ai精选76°Google DeepMind 发表论文,首次系统性地提出 AI 智能体的安全威胁不仅来自模型本身,更来自其读取的环境。论文定义了六类“智能体陷阱”,涵盖感知、推理、记忆、行动、多智能体协作及人类监督等维度。实验显示,隐藏的提示注入攻击在高达 86% 的场景中成功劫持智能体,子智能体劫持成功率 58-90%,数据窃取攻击在五种架构中均超过 80%。论文强调,网页中的隐藏内容(如 HTML 注释、CSS 隐藏文本)对智能体构成严重威胁,且记忆污染攻击在数据污染低于 0.1% 时成功率仍超 80%。论文智能体安全提示注入记忆污染攻击面Google DeepMind推荐理由:这篇论文把 AI 智能体的安全边界从模型内部扩展到了整个互联网环境,做智能体开发和安全研究的团队必须重新审视攻击面——你的智能体可能正在被看不见的网页内容操控。原文