09:35arXiv cs.AI@Han Jeon, Shiv Medler, Joseph Voyles, Matt Wood该论文系统比较了ModernBERT、Ettin等现代编码器分类器与LlamaGuard 3、LlamaGuard 4等LLM裁判在识别有害输出上的性能。使用F1分数、假阴性率和精准率-召回率指标评估,并分解了单轮提示、分解、升级和上下文操纵四种攻击技术。实验发现编码器分类器在多数场景下性能接近LLM裁判,但成本和延迟显著更低。论文ModernBERTEttinLlamaGuardLLM安全评估AI安全推荐理由:ArXiv上新论文,用ModernBERT和Ettin编码器做安全裁判,比LlamaGuard快还便宜,准确率没差太多。原文