REDACT: 系统控制的多语言个人信息检测基准

REDACT: A Systematically Controlled Multilingual Benchmark for Personal Information Detection

精选理由

这个基准提供了具体的数据和评估,能帮你了解不同检测器在处理多语言PII时的真实表现差异。

AI 摘要

REDACT 是一个包含13,427条记录、324,078个实体标注、51种实体类型和4,127种表面形式模式的多语言PII检测基准,覆盖25种语言的9种文字系统。该基准通过强度2覆盖阵列采样器控制9个生成轴,包括领域、格式、难度等。评估了五个检测器(Presidio、GLiNER、OpenAI Privacy Filter、GPT-4.1、Claude Sonnet 4.6)在1,000条记录上的表现,发现基于规则的检测器在高风险数据上表现较差(HIGH敏感类别召回率0.07),而LLM检测器更鲁棒。该基准还提供了实体级元数据(披露状态、披露形式、GDPR敏感等级)以支持分层评估。

AI 翻译 · 中文

REDACT 是一个包含13,427条记录、324,078个实体标注、51种实体类型和4,127种表面形式模式的多语言PII检测基准,覆盖25种语言的9种文字系统。该基准通过强度2覆盖阵列采样器控制9个生成轴,包括领域、格式、难度等。评估了五个检测器(Presidio、GLiNER、OpenAI Privacy Filter、GPT-4.1、Claude Sonnet 4.6)在1,000条记录上的表现,发现基于规则的检测器在高风险数据上表现较差(HIGH敏感类别召回率0.07),而LLM检测器更鲁棒。该基准还提供了实体级元数据(披露状态、披露形式、GDPR敏感等级)以支持分层评估。

arXiv: OpenAIBenchmark infrastructure for personally identifiable information (PII) detection remains limited: existing corpora cover few entity types, use ad hoc generation conditions, and do not show which surface conditions cause