全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

12:06

12:06

arXiv: DeepSeek@Bin Zhu, Yanghui Rao

这篇论文研究了在有限人工标注预算下，LLM法官面板（多个LLM作为评估者）的校准策略选择问题。低维堆叠器（如标量或可靠性聚合）估计成本低但无法捕捉交互效应，而联合输出表可以建模交互但需要更多数据填充单元格。作者提出了一个有限校准机制图，并实例化为可部署的验证选择器。在RewardBench、LLMBar等基准测试中，使用7个法官（包括DeepSeek V4 Flash）的实验表明，标量/可靠性聚合在20个真实数据集-预算组合中赢了16个，说明当前法官输出往往是加性或冗余的。当存在六路交互时，联合输出表才显著优于标量方法（测试MSE从0.224降至0.061）。结论是，关键问题不是“需要多少法官”，而是下一个法官的信息在当前人工标签下是否可估计。

论文 LLM评估校准策略法官面板有限预算交互效应

推荐理由：做LLM评估或模型对齐的团队会关心：这篇论文给出了在有限标注预算下选择校准策略的实用指南，建议直接参考其机制图来优化你的法官面板配置。