6月10日
6月9日
13:05
13:05arXiv cs.AI@Avijit Ghosh, Anka Reuel, Jenny Chim, Wm. Matthew Kennedy, Srishti Yadav, Jennifer Mickel, Yanan Long, Andrew Tran, Anastassia Kornilova, Damian Stachura, Kevin Klyman, Felix Friedrich, Jeba Sania, Max Lamparth, Jan Batzner, Anoop Mishra, Eliya Habba, Yixiong Hao, Nathan Heath, Shalaleh Rismani, Usman Gohar, Andrea Loehr, David Manheim, Ruchira Dhar, Sree Harsha Nelaturu, Aarush Sinha, Leshem Choshen, Drishti Sharma, Ishan Khire, Amit Saha, Subramanyam Sahoo, Michael Hardy, Michael Alexander Riegler, Kabir Manghnani, Michelle Lin, Yanan Jiang, Yilin Huang, Asaf Yehudai, Jessica Ji, Aris Hofmann, Mubashara Akhtar, Nuno Moniz, Yacine Jernite, Stella Biderman, Zeerak Talat, Sanmi Koyejo, Mykel Kochenderfer, Irene Solaiman
AI评估结果虽大量产生,但报告格式不统一,导致读者难以跨来源比较、识别遗漏或追溯证据。现有方案仅覆盖评估生命周期的片段,缺乏统一记录,且未区分不同利益相关者的需求。研究者提出了EvalCards,一个可操作的报告层,整合基准元数据、评估运行数据和模型元数据。他们从52篇论文和10次访谈中推导出报告模式,实现了四个解释信号(可复现性、文档完整性、来源与风险、分数可比性),并针对研究与非研究受众设计了阅读模式。该工具已在5816个模型、635个基准和101843个结果上部署,揭示了当前报告实践中的系统性缺陷。
推荐理由:AI评估报告混乱是行业痛点,做模型评测、写技术文档或选型决策的团队,可以直接用EvalCards统一报告格式,减少误解和重复劳动。
11:48
11:48arXiv cs.AI@Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong
精选
多模态大模型在物理世界中的空间推理能力至关重要,但现有基准多依赖静态问答或特定模拟器,无法评估真实交互场景。研究者提出SpatialWorld,一个统一基准,整合8种异构仿真后端,包含760个人工标注任务,覆盖家务、旅行、社交协作等领域。智能体需在仅视觉部分可观测条件下主动收集证据,并通过统一文本接口做出决策。评估15个先进智能体发现,最强模型GPT-5平均任务成功率仅17.4%,开源模型Qwen-3.5为14.1%,表明主动探索和长程规划仍是瓶颈。

推荐理由:做多模态智能体或空间推理研究的团队,这个基准直接暴露了当前模型在真实交互任务上的短板——GPT-5都只有17.4%成功率,值得用来检验自家模型。
6月8日
6月6日
6月5日
12:42
12:42arXiv: DeepSeek@Natalia Tarasova, Enrique Balp-Straffon, Aleksei Iancheruk, Yevhenii Sielskyi, Nikita Kozodoi, Liam H. Byrne, Jack Butler, Dayuan Jiang, Marcin Czelej, Andrew Ang, Yash Shah, Roi Blanco, Sergei Ivanov
精选
SWE-InfraBench 是一个新基准,用于评估大语言模型在云基础设施即代码(IaC)任务上的表现。与现有基准不同,它聚焦于 AWS CDK 的增量代码修改,而非从头生成整个代码库。数据集来自数十个真实 IaC 代码库,要求模型根据自然语言指令修改现有代码,并通过测试用例验证。评估结果显示,当前最强模型 Sonnet 3.7 的成功率仅为 34%,而推理模型 DeepSeek R1 只有 24%,表明 LLM 在云基础设施代码领域仍有显著局限。该数据集已在 Kaggle 上公开。
推荐理由:云基础设施开发者终于有了一个贴近真实工作流的评估基准——SWE-InfraBench 测试的是增量修改而非从头写代码,做 IaC 或 DevOps 的团队值得关注,看看当前模型在 AWS CDK 上的真实表现。
6月4日
10:35
10:35arXiv cs.AI@Zhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen
精选76°
AutoLab 是一个新基准,用于评估 AI 模型在超长周期闭环优化任务中的表现,涵盖系统优化、谜题挑战、模型开发和 CUDA 内核优化四个领域。每个任务从次优基线开始,要求智能体在严格时间预算内通过反复实验和反馈改进。测试 17 个前沿模型后发现,成功的关键不是初始尝试的质量,而是持续迭代和利用经验反馈的能力。Claude Opus 4.6 表现突出,但多数模型过早终止或进展有限。该基准开源,旨在推动长周期自主智能体的研究。
推荐理由:AutoLab 填补了现有基准只测短周期任务的空白,做 AI 智能体研究和开发的团队可以直接用它来测试模型的持久迭代能力,值得关注。