精选理由
这个新基准EMPATH专测情感支持聊天机器人的安全漏洞,用AI模拟求助者进行多语言多轮对话,发现主流模型评分虚高且不稳定,值得一做。
EMPATH是一个多语言审计-法官基准,用于评估情感支持聊天机器人的安全性。该基准使用审计模型模拟求助用户,基于140个种子指令和34个人设生成多轮对话,法官模型从19个指标(分属五个维度)评分。基准在墨西哥西班牙语和美国英语上构建,研究发现标准评分在19个指标中的10个上存在膨胀,校准后恢复了区分度。在三个前沿模型(含一个开源模型)上测试,聚合分数差异在0.74分内,但具体指标差异可达6分。运行间可靠性差,deepseek-v4-pro在温度0下每次运行生成不同对话。
AI 翻译 · 中文
EMPATH是一个多语言审计-法官基准,用于评估情感支持聊天机器人的安全性。该基准使用审计模型模拟求助用户,基于140个种子指令和34个人设生成多轮对话,法官模型从19个指标(分属五个维度)评分。基准在墨西哥西班牙语和美国英语上构建,研究发现标准评分在19个指标中的10个上存在膨胀,校准后恢复了区分度。在三个前沿模型(含一个开源模型)上测试,聚合分数差异在0.74分内,但具体指标差异可达6分。运行间可靠性差,deepseek-v4-pro在温度0下每次运行生成不同对话。
Safety benchmarks often buy scalability by fixing the prompt, the language, and the turn structure. For emotional-support chatbots, that bargain hides precisely where safety failures emerge: across a multilingual, multi-…