AARR 基准测试:评估前沿 LLM 和智能体在研究生命周期中的表现

Act As a Real Researcher: A Suite of Benchmarks Evaluating Frontier LLMs and Agentic Harnesses in Research Lifecycle

精选理由

这个基准直击当前 AI 智能体在研究场景中的短板——不是执行能力不够,而是缺乏研究者的细腻判断。做 AI 评估或智能体开发的团队值得关注,它揭示了提升 AI 研究素养的新方向。

AI 摘要

随着基础模型和智能体框架的进步,AI 在研究任务中展现出强大能力,但仍无法完全替代人类研究人员。为此,研究者提出了 AARR(Act As a Real Researcher)基准系列,首个基准 AARRI-Bench 专注于评估智能体在细粒度研究场景中的专业性、严谨性和推理能力。实验显示,最佳配置(Mini-SWE-Agent 搭配 Claude Opus 4.7)仅达到 68.3% 的成功率,常忽略人类研究者能轻易察觉的细微关键细节。结果表明,开发类人研究 AI 需要更深入地探索研究行为,而非仅依赖复杂框架。数据已开源。

AI 翻译 · 中文

随着基础模型和智能体框架的进步,AI 在研究任务中展现出强大能力,但仍无法完全替代人类研究人员。为此,研究者提出了 AARR(Act As a Real Researcher)基准系列,首个基准 AARRI-Bench 专注于评估智能体在细粒度研究场景中的专业性、严谨性和推理能力。实验显示,最佳配置(Mini-SWE-Agent 搭配 Claude Opus 4.7)仅达到 68.3% 的成功率,常忽略人类研究者能轻易察觉的细微关键细节。结果表明,开发类人研究 AI 需要更深入地探索研究行为,而非仅依赖复杂框架。数据已开源。

arXiv cs.AIAs foundation models advance and agent scaffolding becomes increasingly sophisticated, agents have demonstrated remarkable proficiency in complex, long-horizon coding tasks and even autonomous experiment execution. Despi