知识蜜罐:诱捕大语言模型提取攻击的新方法

Let Them Steal: Trapping Large Language Model Extraction Attacks with Knowledge Honeypot

精选理由

这篇论文提出一个聪明的防御思路,叫 Knowledge Trap,用蜜罐知识图消耗攻击者的查询预算,不影响正常用户,效果不错。

AI 摘要

Knowledge Trap 是一种针对 LLM 模型提取攻击的防御方法,通过构建 Honeypot Knowledge Graph (HKG) 和面包屑引导探索,将攻击者的查询预算重定向到低迁移性的知识上。在医疗和金融领域的实验中,Knowledge Trap 使攻击者获得的代理模型一致性 (Agreement) 平均降低 6.2%,同时不影响合法用户的准确率。相比现有防御方法,Knowledge Trap 不会降低正常用户的体验。该研究表明,防御知识空间遍历是缓解 LLM 提取攻击的一个实用方向。

AI 翻译 · 中文

Knowledge Trap 是一种针对 LLM 模型提取攻击的防御方法,通过构建 Honeypot Knowledge Graph (HKG) 和面包屑引导探索,将攻击者的查询预算重定向到低迁移性的知识上。在医疗和金融领域的实验中,Knowledge Trap 使攻击者获得的代理模型一致性 (Agreement) 平均降低 6.2%,同时不影响合法用户的准确率。相比现有防御方法,Knowledge Trap 不会降低正常用户的体验。该研究表明,防御知识空间遍历是缓解 LLM 提取攻击的一个实用方向。

arXiv cs.AILarge language models deployed as commercial APIs are vulnerable to model extraction attacks, while existing defenses either act too late or degrade utility for legitimate users. We propose \textbf{Knowledge Trap}, a def