全部 AI 动态 · AI 热点

6月19日

09:37

09:37

arXiv: OpenAI@Guneesh Vats, Anubha Agrawal, Shikha Singhal, Ajita Dash, Praison Selvaraj, Vidhan Jhawar, Ranga Prasad Chenna, Bharadwaj Y M G

REDACT 是一个包含13,427条记录、324,078个实体标注、51种实体类型和4,127种表面形式模式的多语言PII检测基准，覆盖25种语言的9种文字系统。该基准通过强度2覆盖阵列采样器控制9个生成轴，包括领域、格式、难度等。评估了五个检测器（Presidio、GLiNER、OpenAI Privacy Filter、GPT-4.1、Claude Sonnet 4.6）在1,000条记录上的表现，发现基于规则的检测器在高风险数据上表现较差（HIGH敏感类别召回率0.07），而LLM检测器更鲁棒。该基准还提供了实体级元数据（披露状态、披露形式、GDPR敏感等级）以支持分层评估。

论文 REDACT PII检测多语言基准实体识别 LLM评估

推荐理由：这个基准提供了具体的数据和评估，能帮你了解不同检测器在处理多语言PII时的真实表现差异。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？