14:32arXiv cs.AI@Yifan Zhou, Zhentao Zhang, Ziming Cheng, Shuo Zhang, Qizhen Lan, Zhangquan Chen, Zhi Yang, QianyuXu, Ronghao Chen, Huacan Wang, Sen Hu精选SkillGenBench 是一个专门评估 LLM 智能体技能生成能力的基准测试。现有基准主要测试智能体使用已有技能或解决下游任务的能力,但忽略了技能生成本身。该基准覆盖两种生成模式:任务条件生成(根据任务生成特定技能)和任务无关生成(预先提炼可复用的技能库),并包含两种来源:代码仓库和长文档。实验显示不同方法性能差异大,可复用技能蒸馏尤为困难,且从仓库和文档生成技能时失败模式不同。SkillGenBench 为研究智能体系统中的技能生成提供了可复现的测试平台。论文LLM智能体技能生成基准测试可复用技能代码仓库推荐理由:做 LLM 智能体系统或工具链的开发者会发现,技能生成才是当前瓶颈——这个基准直接暴露了从仓库和文档生成可执行技能的难点,值得用来检验自己的管线。原文
14:27arXiv cs.AI@Feng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma精选DexHoldem 是一个基于 ShadowHand 灵巧手系统的真实世界基准测试,围绕德州扑克操作任务设计。它提供了 1470 个遥操作演示、14 种操作原语、标准化物理策略基准和智能体感知基准。实验显示,π0.5 在原始执行上完成率最高(61.2%),而 Opus 4.7 在感知准确率上领先(34.3%),但整体闭环部署中感知与策略错误会累积。该工作旨在评估灵巧操作、智能体感知和具身决策路由的协同能力。论文灵巧操作具身智能基准测试德州扑克ShadowHand推荐理由:灵巧操作与决策感知的闭环评估是具身智能的硬骨头,做机器人操作或具身智能的团队值得看看这个新基准怎么暴露真实部署中的累积错误。原文
14:23arXiv cs.AI@Yining Hong, Jiageng Liu, Han Yin, Manling Li, Leonidas Guibas, Li Fei-Fei, Jiajun Wu, Yejin Choi精选72°研究团队提出 ESI-Bench,一个基于 OmniGibson 的具身空间智能基准,涵盖 10 类任务和 29 个子类,要求智能体主动探索而非被动感知。实验发现,主动探索显著优于被动多视角,但大多数失败源于“行动盲视”——错误行动导致错误观察,进而引发级联错误。即使引入 3D 空间理解,不完美的 3D 表示反而比 2D 基线更差。人类研究显示,模型缺乏元认知能力,过早下结论且不修正信念,暴露了感知与行动闭环中的关键鸿沟。论文具身智能空间推理感知-行动闭环基准测试MLLM推荐理由:做具身智能、机器人或空间推理的团队,ESI-Bench 直接点出了当前 MLLM 在主动探索和行动决策上的致命短板,看完会重新思考你的感知-行动闭环设计。原文
14:02arXiv: DeepSeek@Jing Wang, Hongxuan Lu, Jazze Young, Shu Wang, Zhimin Xin精选DBES 是一个针对混合专家模型(MoE)中专家专业化程度的系统评估框架,包含多领域基准和五个理论驱动的指标:路由专业化、归一化有效秩、领域隔离度、路由刚度评分和N-gram专家度。研究发现不同模型呈现不同专业化范式:Qwen系列表现出模块化专业化和高领域隔离,而DeepSeek和GLM采用分布式协作。更重要的是,通过DBES识别高专业化专家路径进行领域特定后训练,仅用15%的训练资源即可实现66%到94.48%的专业领域性能提升。这项工作首次提供了独立于准确率指标的专家专业化评估方法,为下一代MoE系统的设计和后训练优化提供了关键见解。论文MoE专家专业化基准测试路由机制后训练优化推荐理由:MoE模型的路由机制一直是个黑盒,DBES让开发者能真正量化专家是否在干专长的事。做MoE训练或微调的团队,可以用这套指标直接优化后训练效率,省资源又提效果,值得一试。原文
10:54arXiv cs.LG@David Chanin精选72°一篇来自 arXiv 的论文对 SAEBench(稀疏自编码器标准评估套件)中的质量指标进行了审计,发现 Targeted Probe Perturbation (TPP) 和 Spurious Correlation Removal (SCR) 在标准设置下无法通过多种可靠性测试,不应再用于 SAE 评估。其他指标也存在噪声高、区分度低的问题。sae-probes 变体是测试中最可靠的指标,但仍难以区分同一架构的不同变体。研究结论指出,当前 SAE 领域需要更好的基准测试方法。论文稀疏自编码器可解释性基准测试SAEBench可靠性审计推荐理由:做可解释性研究的团队会发现,你依赖的 SAE 评估指标可能不可靠——TPP 和 SCR 已被证伪,建议改用 sae-probes 并关注新基准的进展。原文
10:26arXiv: Anthropic@Isaac David, Arthur Gervais精选Anthropic在2026年4月发布的Mythos材料中声称其模型能发现真实漏洞,但本文通过控制实验复现了这些漏洞发现任务。实验让GPT-5.5、Claude Opus 4.7和Kimi K2在给定目标文件、只读源码和手动匹配规则下,尝试复现6个已知漏洞。结果显示,GPT-5.5在54次尝试中仅成功5次(覆盖2/6任务),Claude Opus 4.7成功1次,Kimi K2为0次。主要失败原因是模型过早锁定看似合理的候选错误,而忽略了补丁证据中的具体不变性。该结果不否定Anthropic未公开的工作流程,但表明在有利的靶标文件框架下,系统特定提示仅产生少量匹配。论文漏洞发现基准测试GPT-5.5Claude Opus 4.7Kimi K210 个信源在谈推荐理由:这个实验戳破了AI漏洞发现能力的泡沫——即使给定了目标文件,顶级模型复现已知漏洞的成功率也极低。做AI安全评估或漏洞研究的团队,看完会重新审视benchmark的可靠性。原文
10:12arXiv cs.AI@Zhaoyue Sun, Hainiu Xu, Andero Uusberg, James J. Gross, Petr Slovak, Yulan He精选现有LLM情绪理解评估依赖离散标签预测,忽略了情绪产生的认知过程。研究者基于评价理论提出CAREBench,首个包含完整推理链注释的基准,涵盖评价推理、评价评分和多标签情绪标注,从第一和第三人称视角分析真实叙事。实验发现,强模型在某些任务上达到或超越人类,但在评价推理和积极情绪识别上仍有不足;模型在推理链步骤和评价干预敏感性上表现出分离现象,且未内化人类主观异质性的机制。这表明下游情绪预测指标可能高估了LLM的真实情绪理解能力,CAREBench为更诊断性的情感认知评估提供了基础。论文LLM情绪理解评价理论基准测试认知推理推荐理由:做AI情感计算或人机交互的团队,这个基准能帮你发现模型在情绪理解上的真实短板——别被下游指标骗了,建议点开看看评价推理链的设计。原文
10:09arXiv cs.AI@Zoher Kachwala, Bao Tran Truong, Rasika Muralidharan, Haewoon Kwak, Jisun An, Filippo Menczer精选社交媒体正走向多元化,不同社区有各自的规则。研究者提出了PluRule基准,包含来自1989个Reddit社区的13371条规则违规案例,覆盖9种语言。测试发现,即使是GPT-5.2等先进模型,在识别违规内容时表现也仅略优于简单基线。增加模型规模和上下文信息带来的提升有限,而通用规则(如文明用语)更容易被检测。这表明,AI在多元社区的内容审核仍面临根本性挑战。论文内容审核多元社区基准测试Reddit多语言推荐理由:内容审核从业者和社区运营团队会关心:现有AI模型在多元规则下表现堪忧,PluRule为评估和提升审核系统提供了关键基准,值得深入研究。原文
09:57arXiv cs.AI@Wentao Long, Yunfei Zhang, Chenyi Li, Li Zhou, Chumin Sun, Zaiwen Wen精选CAM-Bench是一个新的Lean 4定理证明基准,包含1000个计算与应用数学领域的证明目标,涵盖优化、数值线性代数和数值分析。这些题目改编自教科书习题,依赖局部定义、符号和算法。研究者开发了依赖恢复管道,将每个问题标准化为独立定理并翻译成Lean目标。该基准填补了现有形式化数学基准(如IMO风格问题)的空白,聚焦于应用数学中依赖教科书概念和初等定理的题目。评估显示,现有大模型和形式化代理在跟踪局部假设、应用初等结果、分解证明和长期控制方面存在常见失败模式。论文定理证明Lean 4基准测试应用数学形式化验证推荐理由:做形式化验证或AI数学推理的团队终于有了应用数学方向的专用基准,比纯代数题更贴近实际工程场景,建议关注其失败模式分析来改进模型。原文
09:56arXiv cs.AI@Emad Abukhousa, Saman Zonouz, A. P. Sakis Meliopoulos精选该研究提出了一个延迟感知的基准框架,用于评估深度学习模型在电力系统异常检测中的表现。研究使用工业级电磁暂态模拟器生成的高保真时域信号,系统评估了从MLP到Transformer的八种神经网络架构。所有模型都能在15毫秒内实时分类多事件序列,但端到端推理延迟在50-90毫秒之间,超过了保护级部署的要求。结果表明算法能力与实际部署之间存在关键差距,需要进一步优化和硬件加速。该工作为亚周期异常检测建立了可复现的基准,指导机器学习方法从研究原型向实际保护应用过渡。论文深度学习电力系统异常检测延迟感知基准测试推荐理由:电力系统安全研究者终于有了一个可复现的延迟感知基准——它揭示了AI模型在逆变器主导电网中实时分类故障与攻击时的实际性能瓶颈。做电力系统保护或AI部署的团队可以直接参考这些数据来优化模型和硬件选择。原文
10:51arXiv cs.AI@Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez精选多镜头视频生成面临跨镜头实体(角色、物体、场景)一致性难题,现有评估方法覆盖有限且指标简单。研究者推出 EntityBench 基准,包含 140 个剧集(2491 个镜头),按难易分三档,最长 50 个镜头、13 个跨镜头角色、8 个场景、22 个物体,并设计三支柱评估套件(画质、指令遵循、跨镜头一致性),仅通过保真门控的实体才计入一致性评分。作为基线,提出 EntityMem 记忆增强系统,在生成前将已验证的实体视觉参考存入持久记忆库。实验表明现有方法跨镜头一致性随镜头间隔急剧下降,而 EntityMem 在角色保真度(Cohen's d = +2.33)和出现率上最优。代码和数据已开源。论文视频生成实体一致性基准测试记忆增强多镜头叙事推荐理由:视频生成领域终于有了严肃的实体一致性基准,做多镜头叙事生成的研究者可以直接用这套评估体系,EntityMem 的记忆方案也值得复现试试。原文
13:26arXiv cs.LG@Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Fanny Riols, Hoang H. Nguyen, Raghav Mehndiratta, Lindsay Devon Brin, Joseph Marinier, Hari Subramani, Anil Madamala, Sridhar Krishna Nemala, Srinivas Sunkara精选EVA-Bench 是一个全新的端到端评估框架,专门用于测试语音智能体(Voice Agents)在真实对话场景中的表现。它解决了现有基准无法同时模拟动态对话和全面衡量语音特有失败模式的问题。框架包含 213 个企业级场景,并引入两个复合指标:EVA-A(准确性)和 EVA-X(体验),分别评估任务完成度、忠实度、语音保真度以及对话流畅性、简洁性和轮次时机。在 12 个系统上的测试显示,没有系统能同时在两个指标上超过 0.5,且峰值性能与可靠性能差距显著。该框架已开源,为语音智能体的标准化评估提供了新工具。论文语音智能体评估框架基准测试企业应用开源推荐理由:做语音智能体或对话系统的团队终于有了一个能同时测准确性和体验感的基准——EVA-Bench 覆盖了企业场景和噪声鲁棒性,直接帮你对比不同架构的优劣,建议点开看看具体指标设计。原文
19:12arXiv cs.LG@Seokwon Jung, Alexander Rubinstein, Arnas Uselis, Sangdoo Yun, Seong Joon Oh精选MEME 是一个针对 LLM 智能体在多会话环境中记忆能力的新基准,覆盖了多实体和演化两个维度的六项任务,其中三项(级联、缺失、删除)是此前工作未评估的。在 100 个受控场景中测试了六种记忆系统,发现所有系统在默认配置下的依赖推理任务上表现极差(级联任务平均准确率 3%,缺失任务 1%),尽管静态检索性能尚可。提示优化、更深层检索、减少填充噪声以及更强的大模型都无法弥补这一差距。只有基于文件的智能体配合 Claude Opus 4.7 能部分改善,但成本是基准方案的约 70 倍,说明当前依赖推理的解决方案不具备可扩展性。论文LLM 智能体记忆系统基准测试依赖推理MEME推荐理由:做 LLM 智能体长期记忆系统的团队会发现,现有方案在依赖推理上几乎失效——MEME 基准暴露了被忽视的盲区,值得点开看看你的系统能否通过级联和缺失任务。原文
19:12arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song精选75°ExploitGym 是一个大规模、多样化的基准测试,用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例,涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示,前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例,即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险,为防御和攻击场景提供了重要测试平台。论文安全漏洞AI智能体基准测试漏洞利用Claude Mythos PreviewGPT-5.510 个信源在谈推荐理由:安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景,做渗透测试或 AI 安全评估的团队可以直接拿来用。原文
19:11arXiv: DeepSeek@Zeynel A. Uluşan, Burak S. Akbudak, Can S. Erer, Gözde Gül Şahin近期神经定理证明器使用基于可验证奖励的强化学习(RLVR),但面临稀疏奖励问题:困难问题中部分进展无法获得信号。为此,研究者提出学习奖励模型以评估证明质量,但比较不同奖励模型通常需要昂贵的RL训练消融实验。FormalRewardBench是首个专门评估Lean 4形式化定理证明中奖励模型的基准,包含250个偏好对,每个正确证明通过5种专家设计的错误注入策略生成错误变体。评估包括前沿LLM(如Claude Opus 4.5)、判别型LLM(如CompassJudger-1-14B)、通用LLM(如Qwen2.5-72B-Instruct)以及专用定理证明模型(如DeepSeek-Prover-V2-7B)。结果显示前沿LLM表现最佳(59.8%),而专用定理证明器表现最差(24.4%),表明定理证明能力并未迁移到证明评估任务。论文定理证明奖励模型Lean 4基准测试强化学习推荐理由:该基准填补了形式化定理证明中奖励模型评估工具的空白,揭示专用定理证明模型在评估任务上的不足,为改进RL训练信号提供了明确方向。原文
19:11arXiv cs.AI@Haozhe Zhang, Kaichen Liu, Miaomiao Chen, Lei Li, Shaojie Yang, Cheng Peng, Hanjie Chen研究者推出BenchCAD,一个统一的基准测试,用于评估多模态大语言模型在工业CAD代码生成上的能力。该基准包含17,900个可执行的CadQuery程序,涵盖106个工业零件系列,如锥齿轮、压缩弹簧和麻花钻。通过视觉问答、图像到代码生成等任务,BenchCAD测试模型在感知、参数抽象和可执行程序合成方面的综合能力。实验显示,当前前沿模型能恢复大致几何形状,但在精确参数和工业设计操作上常失败,如用简单拉伸替代扫掠、放样等关键操作。论文代码生成多模态模型CAD/设计基准测试工业自动化推荐理由:该基准揭示了现有模型在工业级CAD生成上的显著不足,为模型优化和工业自动化提供了明确的评估标准。原文
19:11arXiv cs.AI@Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez AhmedCADBench 是一个统一的多模态基准测试,用于评估从图像或3D观测中恢复可编辑CAD程序的能力。该基准包含18,000个样本,涵盖六个基准家族(基于DeepCAD、Fusion 360等)、五种输入模态(如网格、渲染图)和六项指标(几何保真度、可执行性等)。评估了11个CAD专用及通用视觉语言系统,生成超过140万CAD程序。结果显示,在理想输入下专用模型优于通用模型,但模型在几何复杂度和模态变化下表现脆弱,且指标排名不一致。该基准旨在成为可编辑3D重建和多模态CAD理解的诊断工具。论文CAD程序生成多模态基准测试3D重建工程自动化推荐理由:为学界和工业界提供了一个标准化的评估框架,有助于澄清现有CAD程序生成方法的优劣及失败模式,尤其对工程设计自动化领域具有直接参考价值。原文
19:03arXiv: DeepSeek(学术论文)意大利ENGINEERING公司发布了EngGPT2MoE-16B-A3B语言模型,采用16B参数MoE架构(3B活跃参数)。在国际基准测试(ARC-Challenge、GSM8K、MMLU等)中,该模型全面优于FastwebMIIA-7B、Minerva-7B等意大利本土模型。与同规模MoE模型相比,EngGPT2在多数指标上超过DeepSeek-MoE-16B-Chat和Moonlight-16B-A3B,但落后于GPT-OSS-20B。在意大利语数据集ITALIC上,模型表现仅次于Velvet-14B。研究认为该模型是意大利原生大语言模型的重要进步。论文大语言模型MoE意大利语EngGPT2基准测试推荐理由:该评测展示了意大利本土LLM的最新进展,对关注多语言模型(尤其是意大利语)的研究者和开发者具有参考价值,也反映了MoE架构在中等参数规模下的实际性能水平。原文