11:45arXiv cs.LG@Linda Lu, Karthik Sridharan该论文提出名为'可预测性'(predictability)的隐私度量框架,与差分隐私(DP)不同,它通过考虑攻击者的核心知识(部分泄露的数据)来评估隐私泄漏。研究证明可预测性与DP在一般情况下不可比较,但在最坏情形(仅一位个体未泄露且所有查询为二值)下,可预测性隐含互信息差分隐私。作者引入基于广义矩估计(GMM)的渐近分析方法,适用于由平稳遍历混合过程产生的泄露数据。最后,他们设计了一种基于可预测性校准的输出扰动方案,可与DP结合使用以提供细粒度隐私控制。论文差分隐私可预测性GMM隐私度量AI安全推荐理由:这篇论文提出了一个新的隐私度量'可预测性',比差分隐私更细致,还能和它一起用,很适合关注AI隐私的研究者。原文
11:13arXiv cs.LG@Kareem Amin, Rudrajit Das, Alessandro Epasto, Adel Javanmard, Dennis Kraft, Mónica Ribero, Sergei Vassilvitskii该论文提出一个可定制的实证审计框架,用于检测合成数据中的隐私泄露。框架区分“真泄露”(系统直接复制用户信息)与“幻影泄露”(偶然生成用户数据)。通过将数据分为训练集和留出集,并应用统计假设检验,可判断泄露是否超出零学习或差分隐私基线。该方法无需模型访问、无需插入蜜罐、无需训练参考模型,仅需合成输出和留出控制集。实验表明,它作为成员推理攻击,能提供比传统数据审计方法更紧的隐私泄露下限,且计算资源需求少几个数量级。论文合成数据隐私审计差分隐私成员推理攻击LLM推荐理由:想审计合成数据是否偷学了你的信息?这篇论文给出了一个轻量级方案,无需模型权限,只需输出和留出集就能揪出隐私泄露。原文
10:16arXiv cs.AI@Peihua Mai, Xuanrong Gao, Youlong Ding, Xianglong Du, Wei Liu, Yan Pang精选SharedRequest 是一种针对大语言模型(LLM)的隐私保护推理框架,通过将原始提示与噪声变体混合,并在批量级别进行语义分组,来隐藏敏感信息。该方法无需修改模型架构或访问模型参数,兼容任何LLM。实验表明,与差分隐私基线相比,SharedRequest 的效用提升超过20%,且共享提示机制使查询成本降低最多5倍。该框架解决了现有方法在效用、效率和兼容性上的权衡问题。论文隐私保护LLM推理模型无关批量查询差分隐私推荐理由:做LLM隐私保护的团队终于有了一个无需改模型、不牺牲太多效用的实用方案——批量推理还能省成本,做API服务的开发者值得关注。原文
11:59arXiv cs.LG@Farhin Farhad Riya, Olivera Kotevska, Jinyuan Stella Sun联邦学习中,不同客户端可设置不同隐私预算(ε),但服务器利用梯度结构可发起隐私推理攻击,推断客户端分布属性并跨轮次关联更新。现有Shuffle-Model与ε感知聚合不兼容。IntraShuffler提出隐私感知混洗机制,将客户端按隐私预算分组,在组内进行参数级混洗,破坏梯度结构同时保留ε感知聚合。实验显示,该方法将梯度可恢复性降低60%以上,推理准确率从0.78降至0.33,且模型效用基本不变。论文联邦学习差分隐私隐私推理攻击混洗模型IntraShuffler推荐理由:联邦学习团队面临隐私与效用的两难——IntraShuffler在不牺牲模型性能的前提下大幅削弱梯度泄露风险,做隐私保护FL的开发者可以直接参考其混洗分组设计。原文
09:43arXiv cs.AI@Hassan TouheedSS-ZKR 是一种新型隐私保护路由协议,专为多智能体系统设计,作为 A2A 和 MCP 协议的补充层。它解决了在 GDPR、HIPAA 等合规敏感环境中,路由中介无法解密智能体负载却仍需进行内容感知路由的难题。协议包含三个机制:基于差分隐私语义意图向量的盲路由、自适应负载清理以及将信任区域拓扑编译为零知识访问电路。SS-ZKR 让金融、医疗和国防领域的企业能在不暴露专有数据的前提下,跨监管边界编排异构 AI 智能体。论文隐私保护多智能体协作零知识证明A2A/MCP差分隐私推荐理由:做多智能体系统或合规 AI 架构的团队,终于有了一个能在不暴露数据的前提下实现跨组织语义路由的方案——SS-ZKR 直接解决了 A2A/MCP 协议栈中的隐私空白,值得关注。原文
12:14arXiv cs.LG@M. Ross Kunz, John Merickel, Keith Wilson该论文提出一种针对数值表格数据集的统计嵌入方法,通过结构化探索性数据分析描述符、预训练句子变换器和典型相关分析(CCA)实现跨数据集相似性检索与可解释对齐。方法无需共享变量名或特征约定,能自动识别驱动对齐的关键统计描述符,并支持差分隐私保护。在15个数据集(涵盖通用基准、材料信息学和核级石墨表征)上评估,P@1分数达0.9,检索和聚类结构鲁棒。该框架为异构数值数据集成到检索增强生成(RAG)流水线提供了统计上下文保留的路径,适用于数据驱动算法选择和模拟模型初始化。论文统计嵌入表格数据典型相关分析检索增强生成差分隐私推荐理由:做数据科学或材料信息学的团队终于有了一个无需统一变量名就能对齐异构表格数据的方法,检索准确率高达0.9还支持隐私保护,做RAG或算法选择的开发者可以直接参考。原文
10:51arXiv cs.LG@Mathieu Dagréou, Aurélien Bellet精选该论文研究了机器学习模型隐私审计中的金丝雀(canary)生成问题,旨在通过单次训练运行高效评估隐私泄露。作者提出一种结合影响函数贪婪初始化与双层优化的方法,生成既高可检测又低干扰的金丝雀,通过促进嵌入空间多样性减少金丝雀间干扰。实验表明,该方法在更低计算成本下获得比现有方法更强的隐私泄露估计,为差分隐私审计提供了实用改进。论文隐私审计差分隐私金丝雀生成双层优化影响函数推荐理由:做隐私审计或差分隐私研究的团队,这篇论文直接解决了单次运行审计中金丝雀干扰的痛点,提出的方法计算效率高且效果更好,值得点开看具体实现。原文
11:14arXiv cs.AI@Joydeep Chandra精选CHRONOS 提出了一种三层架构,统一解决时序知识图谱数据市场中索引过时、定价失效和隐私预算过度消耗三个耦合问题。第一层使用神经ODE对边进行时序衰减,提供每查询预期召回损失上界;第二层基于检测到的变化点调整Shapley估值,并给出有限样本误差保证;第三层采用EXP3-IX算法实现次线性遗憾,同时通过矩会计满足差分隐私。实验表明,CHRONOS在四个基准上达到0.937召回率、2.74 QPS、161ms延迟,总隐私预算ε=4.25。该架构为动态数据市场提供了首个兼顾时效性、公平性和隐私性的协调方案。论文多智能体协调时序知识图谱差分隐私Shapley估值数据市场推荐理由:做数据市场、时序知识图谱或多智能体系统的研究者值得关注——CHRONOS 把索引、定价和隐私三个痛点一起解决了,实验数据扎实,可以直接作为基线或参考架构。原文
11:31arXiv cs.LG@Christian Janos Lebeda, David Erb, Tudor Cebere, Aurélien Bellet精选Lumberjack 是一种新的差分隐私随机森林算法,通过构建大型随机决策树并应用激进的隐私保护剪枝,显著提升了模型效用。其核心创新是一种针对层次数据的重击检测算法,误差随树高对数增长,支持使用更深的树。在基准数据集上的实验表明,Lumberjack 在隐私预算实用时大幅优于现有方法,建立了新的最优水平。这项工作表明精心设计的差分隐私随机森林可以缩小效用差距,为隐私保护机器学习提供了有前景的新方向。论文差分隐私随机森林重击检测隐私保护机器学习Lumberjack推荐理由:处理敏感表格数据的团队终于有了实用的差分隐私方案——Lumberjack 在隐私预算下显著提升随机森林效用,做隐私保护机器学习的开发者可以直接参考其方法。原文