EMPATH：多语言审计-法官基准用于情感支持聊天机器人安全评估

精选理由

这个新基准EMPATH专测情感支持聊天机器人的安全漏洞，用AI模拟求助者进行多语言多轮对话，发现主流模型评分虚高且不稳定，值得一做。

AI 摘要

EMPATH是一个多语言审计-法官基准，用于评估情感支持聊天机器人的安全性。该基准使用审计模型模拟求助用户，基于140个种子指令和34个人设生成多轮对话，法官模型从19个指标（分属五个维度）评分。基准在墨西哥西班牙语和美国英语上构建，研究发现标准评分在19个指标中的10个上存在膨胀，校准后恢复了区分度。在三个前沿模型（含一个开源模型）上测试，聚合分数差异在0.74分内，但具体指标差异可达6分。运行间可靠性差，deepseek-v4-pro在温度0下每次运行生成不同对话。

AI 翻译 · 中文

arXiv: DeepSeekSafety benchmarks often buy scalability by fixing the prompt, the language, and the turn structure. For emotional-support chatbots, that bargain hides precisely where safety failures emerge: across a multilingual, multi-…

阅读原文