11:35rohanpaul_ai@rohanpaul_ai精选72°斯坦福、MIT、NVIDIA、Google 等顶尖实验室联合发布 AutoLab 基准测试,包含 36 个任务,要求智能体从弱代码出发,在固定时间内改进。测试 17 个强模型后发现,最佳结果并非源于初始想法好,而是模型持续测试、利用反馈。Claude Opus 4.6 因坚持迭代而领先,其他前沿模型常因过早放弃或过度思考而失败。该研究揭示了当前 AI 智能体在长周期研究中的关键短板。论文智能体基准测试长周期研究Claude Opus坚持迭代10 个信源在谈推荐理由:做 AI 研究和智能体开发的团队会看到,坚持比聪明更重要——AutoLab 的发现直接点出了当前智能体在长任务中的致命弱点,值得反思自己的智能体设计。原文