12:53lmarena.ai@lmarena_aiAgent Arena排行榜已正式上线,用户可通过链接访问页面查看详情。排行榜支持按开放模型或实验室(lab)进行筛选过滤。目前该页面已有400次浏览,由xgo.ing提供技术支持。AI模型Agent Arena智能体评测基准开源模型实验室推荐理由:想看看谁家的智能体最强?Agent Arena排行榜刚上线,可以按开源模型和实验室筛选,挺方便。原文
12:05arXiv cs.AI@Shiyun Xiong, Dongming Wu, Peiwen Sun, Yuang Ai, Bokang Yang, Wencheng Han, Xiao-Hui Li, Xiangyu Yue精选论文提出 Benchmark Agent,一个全自动构建 LLM/MLLM 评测基准的智能体系统。它从用户需求分析、子任务设计到数据标注和质量控制,全流程自动化。作者用它生成了 15 个覆盖文本理解、多模态理解和领域推理的基准,经人类评估和 LLM 评判验证,质量高且无需人工参与。该系统解决了传统基准构建劳动密集、易饱和的问题,能持续生成新基准以区分顶尖模型。代码和预览已公开。论文评测基准智能体自动化LLMMLLM推荐理由:做 LLM 评测的团队终于有了自动化工具——Benchmark Agent 能持续生成新基准,避免模型性能饱和,建议做模型评估的开发者直接试试。原文
12:55arXiv: OpenAI@Tanmay Asthana, Aman Saksena, Divyansh Sahu精选76°研究人员发布了针对深度研究代理(DRA)在管理咨询场景下的评测基准,包含42个专家撰写的任务,每个任务有平均13.8个确定性验证器和五维度0-3分专家评分。评测了Claude Opus 4.6、OpenAI o3-deep-research和Google Gemini 3.1 Pro,三者通过联合阈值(专家评分≥2.5且验证器通过率≥80%)的接受率均很低:Gemini 21.4%,o3和Claude仅9.5%。各模型失败模式不同:Claude输出最可靠但虚构最多,o3推理最清晰但遗漏章节和传播算术错误,Gemini表现两极分化。该基准通过嵌入认知陷阱来惩罚表面模式匹配,揭示了当前前沿DRA在专业分析任务上的严重不足。论文评测基准深度研究代理管理咨询ClaudeOpenAI o3Gemini认知陷阱10 个信源在谈推荐理由:管理咨询团队和依赖AI做深度分析的开发者会震惊——三个最先进的DRA在专家级任务中通过率不到22%,且各有致命短板。想避免被AI的自信输出误导,建议仔细看这篇评测的失败模式分析。原文
23:54Geek@geekbb精选阿里巴巴发布了面向工业领域的大语言模型知识评测集 IndustryBench,包含 2049 道题目,题目来源为中国国家标准摘要和结构化工业产品记录。该评测集横跨 7 个能力维度和 10 个行业类别,旨在评估 LLM 在工业领域的知识掌握和推理能力。这是首个系统覆盖中国工业标准的评测基准,对工业智能化应用具有重要参考价值。AI模型评测基准工业领域LLM阿里国家标准推荐理由:做工业 AI 应用或评测的团队终于有了本土化的标准测试集——2049 道题覆盖 10 个行业,直接对标中国国家标准,建议做工业大模型落地的同学点开看看。原文