AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:多语言基准×
6月19日
09:37
09:37arXiv: OpenAI@Guneesh Vats, Anubha Agrawal, Shikha Singhal, Ajita Dash, Praison Selvaraj, Vidhan Jhawar, Ranga Prasad Chenna, Bharadwaj Y M G
REDACT 是一个包含13,427条记录、324,078个实体标注、51种实体类型和4,127种表面形式模式的多语言PII检测基准,覆盖25种语言的9种文字系统。该基准通过强度2覆盖阵列采样器控制9个生成轴,包括领域、格式、难度等。评估了五个检测器(Presidio、GLiNER、OpenAI Privacy Filter、GPT-4.1、Claude Sonnet 4.6)在1,000条记录上的表现,发现基于规则的检测器在高风险数据上表现较差(HIGH敏感类别召回率0.07),而LLM检测器更鲁棒。该基准还提供了实体级元数据(披露状态、披露形式、GDPR敏感等级)以支持分层评估。
论文REDACTPII检测多语言基准实体识别LLM评估

推荐理由:这个基准提供了具体的数据和评估,能帮你了解不同检测器在处理多语言PII时的真实表现差异。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录