11:39arXiv: OpenAI@Sid-ali Temkit精选72°研究发现,LLM在连续对话中会受先前评价的极性(正面或负面)影响,对相同测试项做出偏向该极性的判断。实验涉及11个模型、75,898次API调用,发现模型在不确定时偏差更大(高熵项d=-0.34),负面历史影响是正面的1.62倍。偏差不随上下文长度增加,但模型规模增大可减轻(如Haiku -0.22 vs Opus -0.17)。最简单的修复是每个项目使用新上下文,或平衡历史极性。论文LLM评估对话偏差上下文影响自动化裁判研究推荐理由:做AI评估、内容审核或自动化打分的团队,这条研究直接告诉你为什么你的LLM裁判可能不靠谱——负面历史会让它更苛刻,建议每个测试项都开新对话。原文