GLiNER2-PII: 多语言个人信息提取模型发布

精选理由

该模型以较小参数量在PII提取任务上达到领先性能，并采用合成数据方法规避隐私风险，为数据清洗和合规检测提供了实用工具。开源策略有助于社区进一步优化和适配多语言场景。

AI 摘要

GLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型，专门用于识别42种个人身份信息（PII）实体类型，支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题，研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中，该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源，旨在促进PII检测的研究和实际部署。

AI 翻译 · 中文

IT之家05-12 23:50原文
岚叔05-12 09:35原文
Geek05-13 13:01原文
向阳乔木05-14 02:56原文

阅读原文