精选理由
做AI评估、内容审核或自动化打分的团队,这条研究直接告诉你为什么你的LLM裁判可能不靠谱——负面历史会让它更苛刻,建议每个测试项都开新对话。
研究发现,LLM在连续对话中会受先前评价的极性(正面或负面)影响,对相同测试项做出偏向该极性的判断。实验涉及11个模型、75,898次API调用,发现模型在不确定时偏差更大(高熵项d=-0.34),负面历史影响是正面的1.62倍。偏差不随上下文长度增加,但模型规模增大可减轻(如Haiku -0.22 vs Opus -0.17)。最简单的修复是每个项目使用新上下文,或平衡历史极性。
AI 翻译 · 中文
研究发现,LLM在连续对话中会受先前评价的极性(正面或负面)影响,对相同测试项做出偏向该极性的判断。实验涉及11个模型、75,898次API调用,发现模型在不确定时偏差更大(高熵项d=-0.34),负面历史影响是正面的1.62倍。偏差不随上下文长度增加,但模型规模增大可减轻(如Haiku -0.22 vs Opus -0.17)。最简单的修复是每个项目使用新上下文,或平衡历史极性。
Large language models are routinely used as automated evaluators: to review code, moderate content, or score outputs, often with many items passing through one conversation. We ask whether the polarity of prior conversat…