AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:隐私保护×
5月14日
13:27
arXiv: OpenAI@Anuj Sadani, Deepak Kumar
精选45
本文提出一种完全在设备端运行的 PII 替换流水线,使用 1.5B MoE 分类器检测实体、1-bit Bonsai-1.7B 小语言模型生成上下文相关的假名,以及规则生成器处理模式化字段。研究发现,小模型在少样本提示下会逐字复读演示输出,而非根据输入生成。通过引入基于语言环境的旋转演示池和 MD5 哈希采样,成功消除了 482/482 次调用中的复读现象。尽管生成的假名更自然,但在下游 NER 任务中,规则生成的多样性优于小模型的自然性,这是一个诚实的负面发现。
论文小语言模型PII替换少样本提示设备端推理隐私保护

推荐理由:做设备端隐私处理或小模型应用的团队,这篇论文揭示了少样本提示中一个容易被忽视的陷阱——模型会复读演示而非推理,并给出了一个简单有效的修复方案,值得点开看看。
5月12日
19:11
arXiv: DeepSeek@Naicheng Li, Javad Dogani, Rui Wang, Kaitai Liang, Nikolaos Laoutaris
65
FLTorrent提出一种去中心化的联邦学习(FL)数据分发层,使用BitTorrent协议替代传统中央聚合器,解决性能瓶颈与隐私风险。其核心创新在于“预热阶段”,通过轮前混淆、随机延迟和协调调度(tracker不参与数据传输)实现轮内源不可链接性,防止攻击者通过P2P邻居关系推断更新来源。作者推导了传输归属后验概率的上界,并提出GreedyFastestFirst启发式调度,在100-500个节点时达到带宽最优值的约92%,预热开销稳定在约12%。在Gemma-7B、DeepSeek-R1-14B等大模型测试中,相对于纯BitTorrent仅增加6-10%端到端开销,且对抗观察型本地攻击者和合谋攻击均保持鲁棒。
论文联邦学习隐私保护P2P网络BitTorrent去中心化

推荐理由:该工作首次在去中心化FL中实现轮内不可链接性与BitTorrent级效率共存,为大规模分布式机器学习隐私保护提供了实用方案,尤其适合对隐私敏感或需要弹性扩容的场景。