09:33arXiv cs.AI@Jiayu Wang, Weijiang Lv, Bowen Fu, Jing Fu, Jiayi Song, Lingyu Zhang, Lanxuan Xue, Luodi Chen, Zepeng Xin, Kaiyu Li, Xiangyong Cao随着基础模型和智能体框架的进步,AI 在研究任务中展现出强大能力,但仍无法完全替代人类研究人员。为此,研究者提出了 AARR(Act As a Real Researcher)基准系列,首个基准 AARRI-Bench 专注于评估智能体在细粒度研究场景中的专业性、严谨性和推理能力。实验显示,最佳配置(Mini-SWE-Agent 搭配 Claude Opus 4.7)仅达到 68.3% 的成功率,常忽略人类研究者能轻易察觉的细微关键细节。结果表明,开发类人研究 AI 需要更深入地探索研究行为,而非仅依赖复杂框架。数据已开源。论文基准测试LLM智能体研究自动化AARR推荐理由:这个基准直击当前 AI 智能体在研究场景中的短板——不是执行能力不够,而是缺乏研究者的细腻判断。做 AI 评估或智能体开发的团队值得关注,它揭示了提升 AI 研究素养的新方向。原文
21:35Anthropic: Engineering(资讯)精选Anthropic 分享了其内部多智能体研究系统的构建经验。该系统利用多个 Claude 智能体协同工作,以加速 AI 安全研究。文章详细介绍了系统架构、智能体分工、任务协调机制以及在实际研究中的应用效果。这一系统展示了多智能体协作在复杂研究任务中的潜力,为 AI 研究自动化提供了新思路。AI产品多智能体AnthropicClaudeAI 安全研究自动化10 个信源在谈推荐理由:Anthropic 公开了多智能体系统的实战架构,做 AI 研究和智能体开发的团队可以直接借鉴其任务协调与分工设计,值得点开学习。原文