AMEL：对话历史极性偏差影响LLM判断

精选理由

做AI评估、内容审核或自动化打分的团队，这条研究直接告诉你为什么你的LLM裁判可能不靠谱——负面历史会让它更苛刻，建议每个测试项都开新对话。

AI 摘要

研究发现，LLM在连续对话中会受先前评价的极性（正面或负面）影响，对相同测试项做出偏向该极性的判断。实验涉及11个模型、75,898次API调用，发现模型在不确定时偏差更大（高熵项d=-0.34），负面历史影响是正面的1.62倍。偏差不随上下文长度增加，但模型规模增大可减轻（如Haiku -0.22 vs Opus -0.17）。最简单的修复是每个项目使用新上下文，或平衡历史极性。

AI 翻译 · 中文

arXiv: OpenAILarge language models are routinely used as automated evaluators: to review code, moderate content, or score outputs, often with many items passing through one conversation. We ask whether the polarity of prior conversat…

阅读原文