AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:情感支持聊天机器人×
6月30日
10:40
10:40arXiv: DeepSeek@Camilo Chacón Sartori
EMPATH是一个多语言审计-法官基准,用于评估情感支持聊天机器人的安全性。该基准使用审计模型模拟求助用户,基于140个种子指令和34个人设生成多轮对话,法官模型从19个指标(分属五个维度)评分。基准在墨西哥西班牙语和美国英语上构建,研究发现标准评分在19个指标中的10个上存在膨胀,校准后恢复了区分度。在三个前沿模型(含一个开源模型)上测试,聚合分数差异在0.74分内,但具体指标差异可达6分。运行间可靠性差,deepseek-v4-pro在温度0下每次运行生成不同对话。
AI模型EMPATH情感支持聊天机器人AI安全多语言基准测试

推荐理由:这个新基准EMPATH专测情感支持聊天机器人的安全漏洞,用AI模拟求助者进行多语言多轮对话,发现主流模型评分虚高且不稳定,值得一做。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录