Anthropic 量化智能体编程评测中的基础设施噪声

Quantifying infrastructure noise in agentic coding evals Feb 05, 2026

精选理由

做 AI 编程评测的团队终于有了量化噪声的方法论——基础设施差异能让结果偏差 30%,建议所有做 agentic coding 评估的开发者点开,避免被虚假分数误导。

AI 摘要

Anthropic 发布了一项研究,量化了基础设施噪声对智能体编程评测的影响。他们发现,不同的运行环境、工具链版本和硬件配置会导致评测结果出现显著偏差,最高可达 30%。这项研究提出了标准化评测流程的建议,帮助开发者更准确地评估 AI 编程助手的真实能力。对于依赖评测结果进行模型选型和优化的团队,这直接关系到决策的可靠性。

图片来源 · Anthropic: Engineering
AI 翻译 · 中文

Anthropic 发布了一项研究,量化了基础设施噪声对智能体编程评测的影响。他们发现,不同的运行环境、工具链版本和硬件配置会导致评测结果出现显著偏差,最高可达 30%。这项研究提出了标准化评测流程的建议,帮助开发者更准确地评估 AI 编程助手的真实能力。对于依赖评测结果进行模型选型和优化的团队,这直接关系到决策的可靠性。