精选理由
做 LLM 内容溯源或版权保护的团队终于有了一个既不影响生成质量、又能抗稀释的实用方案,建议关注其蒸馏检测能力。
TextSeal 是一种新型大语言模型水印方案,基于 Gumbel-max 采样并引入双密钥生成、熵加权评分和多区域定位,显著提升检测能力。它不增加推理开销,支持投机解码和多 token 预测等优化,在检测强度上严格优于 SynthID-text。即使在人类与 AI 混合文本中也能保持高置信度本地化检测,且理论上无失真。多语言人工评估(6000 次 A/B 比较,5 种语言)显示无感知质量差异。此外,水印信号可通过模型蒸馏传递,实现未经授权使用的检测。
AI 翻译 · 中文
TextSeal 是一种新型大语言模型水印方案,基于 Gumbel-max 采样并引入双密钥生成、熵加权评分和多区域定位,显著提升检测能力。它不增加推理开销,支持投机解码和多 token 预测等优化,在检测强度上严格优于 SynthID-text。即使在人类与 AI 混合文本中也能保持高置信度本地化检测,且理论上无失真。多语言人工评估(6000 次 A/B 比较,5 种语言)显示无感知质量差异。此外,水印信号可通过模型蒸馏传递,实现未经授权使用的检测。
We introduce TextSeal, a state-of-the-art watermark for large language models. Building on Gumbel-max sampling, TextSeal introduces dual-key generation to restore output diversity, along with entropy-weighted scoring and…