知识蜜罐：诱捕大语言模型提取攻击的新方法

精选理由

这篇论文提出一个聪明的防御思路，叫 Knowledge Trap，用蜜罐知识图消耗攻击者的查询预算，不影响正常用户，效果不错。

AI 摘要

Knowledge Trap 是一种针对 LLM 模型提取攻击的防御方法，通过构建 Honeypot Knowledge Graph (HKG) 和面包屑引导探索，将攻击者的查询预算重定向到低迁移性的知识上。在医疗和金融领域的实验中，Knowledge Trap 使攻击者获得的代理模型一致性 (Agreement) 平均降低 6.2%，同时不影响合法用户的准确率。相比现有防御方法，Knowledge Trap 不会降低正常用户的体验。该研究表明，防御知识空间遍历是缓解 LLM 提取攻击的一个实用方向。

AI 翻译 · 中文

arXiv cs.AILarge language models deployed as commercial APIs are vulnerable to model extraction attacks, while existing defenses either act too late or degrade utility for legitimate users. We propose \textbf{Knowledge Trap}, a def…

阅读原文