Scaffold 选择影响 GAIA 准确率高达 28 个百分点：模型能力评估需谨慎

精选理由

做 AI 模型评测或选型的人必须看——这篇研究用严格对照实验证明，你看到的模型能力分数可能更多反映的是 scaffold 设计而非模型本身，建议重新审视自己的评估流程。

AI 摘要

一项预注册的对照研究系统比较了三种不同 scaffold（ReAct、多智能体 Planner-Actor-Rater、Planner-then-Executor）在五个模型（Claude Opus 4.7、Sonnet 4.6、Haiku 4.5、Gemini 3.1 Pro Preview、GPT-5.5）上的 GAIA 验证集表现。研究发现，仅 scaffold 选择就使同一模型的准确率波动高达 28 个百分点，证实了 scaffold 变化至少产生 10 个百分点的差距。更令人意外的是，更强大的模型并未对 scaffold 更不敏感——在更难的 Level 2 任务中，最强模型反而从结构化 scaffold 中获益最多。多智能体设计在 Anthropic 模型家族中优于 ReAct，但跨模型提供商时优势消失。结构化 scaffold 调用工具次数更少，但在困难任务中从错误中恢复的能力更强。这些结果表明，单 scaffold 的能力评估数字是 scaffold 条件性的，且随着模型改进，评估差距未必会缩小。

AI 翻译 · 中文

arXiv: AnthropicPublished agent capability scores conflate what a model can do with what its scaffold lets it do, and the magnitude of this elicitation gap is not well characterized under controlled conditions. This study executes a pre…

rohanpaul_ai06-08 21:46原文
lmarena.ai06-05 14:19原文
AI Will06-08 09:49原文
Anthropic06-05 19:27原文
shao__meng06-08 00:50原文
SuperTechFans06-06 00:01原文
Claude Code: GitHub Releases06-06 00:55原文
IT之家06-06 05:38原文
Decoder06-06 11:22原文
Gary Marcus06-06 21:47原文

阅读原文