精选理由
做AI情感计算或人机交互的团队,这个基准能帮你发现模型在情绪理解上的真实短板——别被下游指标骗了,建议点开看看评价推理链的设计。
现有LLM情绪理解评估依赖离散标签预测,忽略了情绪产生的认知过程。研究者基于评价理论提出CAREBench,首个包含完整推理链注释的基准,涵盖评价推理、评价评分和多标签情绪标注,从第一和第三人称视角分析真实叙事。实验发现,强模型在某些任务上达到或超越人类,但在评价推理和积极情绪识别上仍有不足;模型在推理链步骤和评价干预敏感性上表现出分离现象,且未内化人类主观异质性的机制。这表明下游情绪预测指标可能高估了LLM的真实情绪理解能力,CAREBench为更诊断性的情感认知评估提供了基础。
AI 翻译 · 中文
现有LLM情绪理解评估依赖离散标签预测,忽略了情绪产生的认知过程。研究者基于评价理论提出CAREBench,首个包含完整推理链注释的基准,涵盖评价推理、评价评分和多标签情绪标注,从第一和第三人称视角分析真实叙事。实验发现,强模型在某些任务上达到或超越人类,但在评价推理和积极情绪识别上仍有不足;模型在推理链步骤和评价干预敏感性上表现出分离现象,且未内化人类主观异质性的机制。这表明下游情绪预测指标可能高估了LLM的真实情绪理解能力,CAREBench为更诊断性的情感认知评估提供了基础。
Emotion understanding is a core capability for LLMs to interact effectively with humans, yet existing evaluation paradigms rely on discrete emotion label prediction and fail to capture the cognitive processes underlying …