全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月22日

11:39

11:39

arXiv: OpenAI@Sid-ali Temkit

精选72°

研究发现，LLM在连续对话中会受先前评价的极性（正面或负面）影响，对相同测试项做出偏向该极性的判断。实验涉及11个模型、75,898次API调用，发现模型在不确定时偏差更大（高熵项d=-0.34），负面历史影响是正面的1.62倍。偏差不随上下文长度增加，但模型规模增大可减轻（如Haiku -0.22 vs Opus -0.17）。最简单的修复是每个项目使用新上下文，或平衡历史极性。

论文 LLM评估对话偏差上下文影响自动化裁判研究

推荐理由：做AI评估、内容审核或自动化打分的团队，这条研究直接告诉你为什么你的LLM裁判可能不靠谱——负面历史会让它更苛刻，建议每个测试项都开新对话。