论文精选

DACSI攻击:低成本间接提示注入突破RAG安全边界

Document-Authored Control-Signal Impersonation: A Low-Cost Indirect Prompt Attack on RAG Safety Boundaries

精选理由

RAG系统开发者需要警惕这种低成本、隐蔽的间接注入方式——它不依赖命令,而是冒充元数据,做AI安全的团队建议仔细看论文中的缓解方案。

AI 摘要

研究者发现了一种针对检索增强生成(RAG)系统的新型间接提示注入攻击模式,称为DACSI(文档作者控制信号冒充)。攻击者通过编写看似元数据、来源或策略信号的文档文本,让模型误将其视为可信的控制指令,从而绕过安全边界。该攻击无需显式命令,利用RAG将用户查询、检索文档和系统标签混合到同一自然语言提示中的设计缺陷。在DeepSeek V4 Pro、Qwen3.5-397B等6种模型上的实验表明,该攻击在多数模型上有效,尤其在高易感性设置中。研究建议通过源/通道分离来缓解此类攻击。

AI 翻译 · 中文

研究者发现了一种针对检索增强生成(RAG)系统的新型间接提示注入攻击模式,称为DACSI(文档作者控制信号冒充)。攻击者通过编写看似元数据、来源或策略信号的文档文本,让模型误将其视为可信的控制指令,从而绕过安全边界。该攻击无需显式命令,利用RAG将用户查询、检索文档和系统标签混合到同一自然语言提示中的设计缺陷。在DeepSeek V4 Pro、Qwen3.5-397B等6种模型上的实验表明,该攻击在多数模型上有效,尤其在高易感性设置中。研究建议通过源/通道分离来缓解此类攻击。

arXiv: DeepSeekRetrieval-augmented generation (RAG) systems often serialize user queries, retrieved documents, metadata, system labels, and task instructions into one natural-language prompt. We study a source-authority boundary failur