REDACT: 系统控制的多语言个人信息检测基准

精选理由

这个基准提供了具体的数据和评估，能帮你了解不同检测器在处理多语言PII时的真实表现差异。

AI 摘要

REDACT 是一个包含13,427条记录、324,078个实体标注、51种实体类型和4,127种表面形式模式的多语言PII检测基准，覆盖25种语言的9种文字系统。该基准通过强度2覆盖阵列采样器控制9个生成轴，包括领域、格式、难度等。评估了五个检测器（Presidio、GLiNER、OpenAI Privacy Filter、GPT-4.1、Claude Sonnet 4.6）在1,000条记录上的表现，发现基于规则的检测器在高风险数据上表现较差（HIGH敏感类别召回率0.07），而LLM检测器更鲁棒。该基准还提供了实体级元数据（披露状态、披露形式、GDPR敏感等级）以支持分层评估。

AI 翻译 · 中文

arXiv: OpenAIBenchmark infrastructure for personally identifiable information (PII) detection remains limited: existing corpora cover few entity types, use ad hoc generation conditions, and do not show which surface conditions cause …

Decoder06-16 11:28原文
kimmonismus06-16 12:41原文
OpenAI06-16 19:42原文
Jim Fan06-16 21:51原文
宝玉06-16 23:30原文
IT之家06-17 12:11原文
Lenny Rachitsky06-17 16:15原文
Aadit Sheth06-17 19:22原文
lmarena.ai06-17 20:21原文
berryxia06-18 03:41原文

阅读原文