12:05arXiv cs.AI@Shiyun Xiong, Dongming Wu, Peiwen Sun, Yuang Ai, Bokang Yang, Wencheng Han, Xiao-Hui Li, Xiangyu Yue精选论文提出 Benchmark Agent,一个全自动构建 LLM/MLLM 评测基准的智能体系统。它从用户需求分析、子任务设计到数据标注和质量控制,全流程自动化。作者用它生成了 15 个覆盖文本理解、多模态理解和领域推理的基准,经人类评估和 LLM 评判验证,质量高且无需人工参与。该系统解决了传统基准构建劳动密集、易饱和的问题,能持续生成新基准以区分顶尖模型。代码和预览已公开。论文评测基准智能体自动化LLMMLLM推荐理由:做 LLM 评测的团队终于有了自动化工具——Benchmark Agent 能持续生成新基准,避免模型性能饱和,建议做模型评估的开发者直接试试。原文
12:55arXiv: OpenAI@Tanmay Asthana, Aman Saksena, Divyansh Sahu精选76°研究人员发布了针对深度研究代理(DRA)在管理咨询场景下的评测基准,包含42个专家撰写的任务,每个任务有平均13.8个确定性验证器和五维度0-3分专家评分。评测了Claude Opus 4.6、OpenAI o3-deep-research和Google Gemini 3.1 Pro,三者通过联合阈值(专家评分≥2.5且验证器通过率≥80%)的接受率均很低:Gemini 21.4%,o3和Claude仅9.5%。各模型失败模式不同:Claude输出最可靠但虚构最多,o3推理最清晰但遗漏章节和传播算术错误,Gemini表现两极分化。该基准通过嵌入认知陷阱来惩罚表面模式匹配,揭示了当前前沿DRA在专业分析任务上的严重不足。论文评测基准深度研究代理管理咨询ClaudeOpenAI o3Gemini认知陷阱10 个信源在谈推荐理由:管理咨询团队和依赖AI做深度分析的开发者会震惊——三个最先进的DRA在专家级任务中通过率不到22%,且各有致命短板。想避免被AI的自信输出误导,建议仔细看这篇评测的失败模式分析。原文