论文精选76°

AutoLab:前沿模型能否解决长周期自动研究与工程任务?

AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

精选理由

AutoLab 填补了现有基准只测短周期任务的空白,做 AI 智能体研究和开发的团队可以直接用它来测试模型的持久迭代能力,值得关注。

AI 摘要

AutoLab 是一个新基准,用于评估 AI 模型在超长周期闭环优化任务中的表现,涵盖系统优化、谜题挑战、模型开发和 CUDA 内核优化四个领域。每个任务从次优基线开始,要求智能体在严格时间预算内通过反复实验和反馈改进。测试 17 个前沿模型后发现,成功的关键不是初始尝试的质量,而是持续迭代和利用经验反馈的能力。Claude Opus 4.6 表现突出,但多数模型过早终止或进展有限。该基准开源,旨在推动长周期自主智能体的研究。

AI 翻译 · 中文

AutoLab 是一个新基准,用于评估 AI 模型在超长周期闭环优化任务中的表现,涵盖系统优化、谜题挑战、模型开发和 CUDA 内核优化四个领域。每个任务从次优基线开始,要求智能体在严格时间预算内通过反复实验和反馈改进。测试 17 个前沿模型后发现,成功的关键不是初始尝试的质量,而是持续迭代和利用经验反馈的能力。Claude Opus 4.6 表现突出,但多数模型过早终止或进展有限。该基准开源,旨在推动长周期自主智能体的研究。

arXiv cs.AIScientific and engineering progress is fundamentally a long-horizon iterative process: proposing changes, running experiments, measuring outcomes, and continuously refining artifacts. Yet existing benchmarks for frontier