Locale-Conditioned Few-Shot Prompting 解决 SLM 在 PII 替换中的演示复读问题

精选理由

做设备端隐私处理或小模型应用的团队，这篇论文揭示了少样本提示中一个容易被忽视的陷阱——模型会复读演示而非推理，并给出了一个简单有效的修复方案，值得点开看看。

AI 摘要

本文提出一种完全在设备端运行的 PII 替换流水线，使用 1.5B MoE 分类器检测实体、1-bit Bonsai-1.7B 小语言模型生成上下文相关的假名，以及规则生成器处理模式化字段。研究发现，小模型在少样本提示下会逐字复读演示输出，而非根据输入生成。通过引入基于语言环境的旋转演示池和 MD5 哈希采样，成功消除了 482/482 次调用中的复读现象。尽管生成的假名更自然，但在下游 NER 任务中，规则生成的多样性优于小模型的自然性，这是一个诚实的负面发现。

AI 翻译 · 中文

arXiv: OpenAIPersonally Identifiable Information (PII) redaction usually replaces detected entities with placeholder tokens such as [PERSON], destroying the downstream utility of the redacted text for retrieval and Named Entity Recog…

阅读原文