CAREBench：评估LLM情绪理解的新基准，聚焦认知评价推理

精选理由

做AI情感计算或人机交互的团队，这个基准能帮你发现模型在情绪理解上的真实短板——别被下游指标骗了，建议点开看看评价推理链的设计。

AI 摘要

现有LLM情绪理解评估依赖离散标签预测，忽略了情绪产生的认知过程。研究者基于评价理论提出CAREBench，首个包含完整推理链注释的基准，涵盖评价推理、评价评分和多标签情绪标注，从第一和第三人称视角分析真实叙事。实验发现，强模型在某些任务上达到或超越人类，但在评价推理和积极情绪识别上仍有不足；模型在推理链步骤和评价干预敏感性上表现出分离现象，且未内化人类主观异质性的机制。这表明下游情绪预测指标可能高估了LLM的真实情绪理解能力，CAREBench为更诊断性的情感认知评估提供了基础。

AI 翻译 · 中文

arXiv cs.AIEmotion understanding is a core capability for LLMs to interact effectively with humans, yet existing evaluation paradigms rely on discrete emotion label prediction and fail to capture the cognitive processes underlying …

阅读原文