11:13arXiv cs.LG@Kareem Amin, Rudrajit Das, Alessandro Epasto, Adel Javanmard, Dennis Kraft, Mónica Ribero, Sergei Vassilvitskii该论文提出一个可定制的实证审计框架,用于检测合成数据中的隐私泄露。框架区分“真泄露”(系统直接复制用户信息)与“幻影泄露”(偶然生成用户数据)。通过将数据分为训练集和留出集,并应用统计假设检验,可判断泄露是否超出零学习或差分隐私基线。该方法无需模型访问、无需插入蜜罐、无需训练参考模型,仅需合成输出和留出控制集。实验表明,它作为成员推理攻击,能提供比传统数据审计方法更紧的隐私泄露下限,且计算资源需求少几个数量级。论文合成数据隐私审计差分隐私成员推理攻击LLM推荐理由:想审计合成数据是否偷学了你的信息?这篇论文给出了一个轻量级方案,无需模型权限,只需输出和留出集就能揪出隐私泄露。原文