EMPATH:多语言审计-法官基准用于情感支持聊天机器人安全评估

EMPATH: A Multilingual Auditor-Judge Benchmark for Safety Evaluation of Emotional-Support Chatbots

精选理由

这个新基准EMPATH专测情感支持聊天机器人的安全漏洞,用AI模拟求助者进行多语言多轮对话,发现主流模型评分虚高且不稳定,值得一做。

AI 摘要

EMPATH是一个多语言审计-法官基准,用于评估情感支持聊天机器人的安全性。该基准使用审计模型模拟求助用户,基于140个种子指令和34个人设生成多轮对话,法官模型从19个指标(分属五个维度)评分。基准在墨西哥西班牙语和美国英语上构建,研究发现标准评分在19个指标中的10个上存在膨胀,校准后恢复了区分度。在三个前沿模型(含一个开源模型)上测试,聚合分数差异在0.74分内,但具体指标差异可达6分。运行间可靠性差,deepseek-v4-pro在温度0下每次运行生成不同对话。

AI 翻译 · 中文

EMPATH是一个多语言审计-法官基准,用于评估情感支持聊天机器人的安全性。该基准使用审计模型模拟求助用户,基于140个种子指令和34个人设生成多轮对话,法官模型从19个指标(分属五个维度)评分。基准在墨西哥西班牙语和美国英语上构建,研究发现标准评分在19个指标中的10个上存在膨胀,校准后恢复了区分度。在三个前沿模型(含一个开源模型)上测试,聚合分数差异在0.74分内,但具体指标差异可达6分。运行间可靠性差,deepseek-v4-pro在温度0下每次运行生成不同对话。

arXiv: DeepSeekSafety benchmarks often buy scalability by fixing the prompt, the language, and the turn structure. For emotional-support chatbots, that bargain hides precisely where safety failures emerge: across a multilingual, multi-