Phantoms and Disclosures：一个审计合成数据隐私泄露的因果框架

精选理由

想审计合成数据是否偷学了你的信息？这篇论文给出了一个轻量级方案，无需模型权限，只需输出和留出集就能揪出隐私泄露。

AI 摘要

该论文提出一个可定制的实证审计框架，用于检测合成数据中的隐私泄露。框架区分“真泄露”（系统直接复制用户信息）与“幻影泄露”（偶然生成用户数据）。通过将数据分为训练集和留出集，并应用统计假设检验，可判断泄露是否超出零学习或差分隐私基线。该方法无需模型访问、无需插入蜜罐、无需训练参考模型，仅需合成输出和留出控制集。实验表明，它作为成员推理攻击，能提供比传统数据审计方法更紧的隐私泄露下限，且计算资源需求少几个数量级。

AI 翻译 · 中文

arXiv cs.LGThe rapid adoption of generative AI and Large Language Models (LLMs) has spurred interest in synthetic data as a privacy-preserving alternative to sensitive real-world datasets. However, generating high-utility synthetic…

阅读原文