Autoresearch

§ 01综述

Autoresearch 正通过将语言模型与自动化科研流程结合，探索 AI 自主驱动科学发现的可能性。近期进展揭示了其潜力与当前局限：

NanoGPT-Bench评估：编码智能体仅恢复9.3%人类进展：一项基准测试显示，当前基于GPT的编码智能体在复原人类科研成果方面效率极低，仅恢复9.3%的进展，凸显自动科研在复杂任务上的巨大差距。

Karpathy 加入 Anthropic 预训练团队，拟用递归训练提升 Claude：前OpenAI研究员Andrej Karpathy加入Anthropic，计划通过递归自我训练方式提升模型科研能力，试图突破当前瓶颈。

Autoresearch 框架 Automat 自动设计材料描述符，超越传统基线：OpenAI提出的框架Automat在材料科学中自动生成描述符，性能超越人工设计基线，展示出在特定领域的实用价值。

当前焦点在于自动科研是否能在可控任务上超越人类，并在复杂问题上取得突破。未来需关注递归训练能否实质性提升模型推理能力，以及如何将碎片化的自动化工具整合为通用科研基础设施。

§ 02相关报道03 条在档

§ 03邻近话题