Phantoms and Disclosures:一个审计合成数据隐私泄露的因果框架

Phantoms and Disclosures: a Causal Framework for Auditing Synthetic Data

精选理由

想审计合成数据是否偷学了你的信息?这篇论文给出了一个轻量级方案,无需模型权限,只需输出和留出集就能揪出隐私泄露。

AI 摘要

该论文提出一个可定制的实证审计框架,用于检测合成数据中的隐私泄露。框架区分“真泄露”(系统直接复制用户信息)与“幻影泄露”(偶然生成用户数据)。通过将数据分为训练集和留出集,并应用统计假设检验,可判断泄露是否超出零学习或差分隐私基线。该方法无需模型访问、无需插入蜜罐、无需训练参考模型,仅需合成输出和留出控制集。实验表明,它作为成员推理攻击,能提供比传统数据审计方法更紧的隐私泄露下限,且计算资源需求少几个数量级。

AI 翻译 · 中文

该论文提出一个可定制的实证审计框架,用于检测合成数据中的隐私泄露。框架区分“真泄露”(系统直接复制用户信息)与“幻影泄露”(偶然生成用户数据)。通过将数据分为训练集和留出集,并应用统计假设检验,可判断泄露是否超出零学习或差分隐私基线。该方法无需模型访问、无需插入蜜罐、无需训练参考模型,仅需合成输出和留出控制集。实验表明,它作为成员推理攻击,能提供比传统数据审计方法更紧的隐私泄露下限,且计算资源需求少几个数量级。

arXiv cs.LGThe rapid adoption of generative AI and Large Language Models (LLMs) has spurred interest in synthetic data as a privacy-preserving alternative to sensitive real-world datasets. However, generating high-utility synthetic