论文精选72°

AMEL:对话历史极性偏差影响LLM判断

AMEL: Accumulated Message Effects on LLM Judgments

精选理由

做AI评估、内容审核或自动化打分的团队,这条研究直接告诉你为什么你的LLM裁判可能不靠谱——负面历史会让它更苛刻,建议每个测试项都开新对话。

AI 摘要

研究发现,LLM在连续对话中会受先前评价的极性(正面或负面)影响,对相同测试项做出偏向该极性的判断。实验涉及11个模型、75,898次API调用,发现模型在不确定时偏差更大(高熵项d=-0.34),负面历史影响是正面的1.62倍。偏差不随上下文长度增加,但模型规模增大可减轻(如Haiku -0.22 vs Opus -0.17)。最简单的修复是每个项目使用新上下文,或平衡历史极性。

AI 翻译 · 中文

研究发现,LLM在连续对话中会受先前评价的极性(正面或负面)影响,对相同测试项做出偏向该极性的判断。实验涉及11个模型、75,898次API调用,发现模型在不确定时偏差更大(高熵项d=-0.34),负面历史影响是正面的1.62倍。偏差不随上下文长度增加,但模型规模增大可减轻(如Haiku -0.22 vs Opus -0.17)。最简单的修复是每个项目使用新上下文,或平衡历史极性。

arXiv: OpenAILarge language models are routinely used as automated evaluators: to review code, moderate content, or score outputs, often with many items passing through one conversation. We ask whether the polarity of prior conversat