全部 AI 动态 · AI 热点

5月19日

14:32

arXiv cs.AI@Yifan Zhou, Zhentao Zhang, Ziming Cheng, Shuo Zhang, Qizhen Lan, Zhangquan Chen, Zhi Yang, QianyuXu, Ronghao Chen, Huacan Wang, Sen Hu

精选

SkillGenBench 是一个专门评估 LLM 智能体技能生成能力的基准测试。现有基准主要测试智能体使用已有技能或解决下游任务的能力，但忽略了技能生成本身。该基准覆盖两种生成模式：任务条件生成（根据任务生成特定技能）和任务无关生成（预先提炼可复用的技能库），并包含两种来源：代码仓库和长文档。实验显示不同方法性能差异大，可复用技能蒸馏尤为困难，且从仓库和文档生成技能时失败模式不同。SkillGenBench 为研究智能体系统中的技能生成提供了可复现的测试平台。

论文 LLM智能体技能生成基准测试可复用技能代码仓库

推荐理由：做 LLM 智能体系统或工具链的开发者会发现，技能生成才是当前瓶颈——这个基准直接暴露了从仓库和文档生成可执行技能的难点，值得用来检验自己的管线。

原文

14:27

arXiv cs.AI@Feng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma

精选

DexHoldem 是一个基于 ShadowHand 灵巧手系统的真实世界基准测试，围绕德州扑克操作任务设计。它提供了 1470 个遥操作演示、14 种操作原语、标准化物理策略基准和智能体感知基准。实验显示，π0.5 在原始执行上完成率最高（61.2%），而 Opus 4.7 在感知准确率上领先（34.3%），但整体闭环部署中感知与策略错误会累积。该工作旨在评估灵巧操作、智能体感知和具身决策路由的协同能力。

论文灵巧操作具身智能基准测试德州扑克 ShadowHand

推荐理由：灵巧操作与决策感知的闭环评估是具身智能的硬骨头，做机器人操作或具身智能的团队值得看看这个新基准怎么暴露真实部署中的累积错误。

原文

14:23

arXiv cs.AI@Yining Hong, Jiageng Liu, Han Yin, Manling Li, Leonidas Guibas, Li Fei-Fei, Jiajun Wu, Yejin Choi

精选72°

研究团队提出 ESI-Bench，一个基于 OmniGibson 的具身空间智能基准，涵盖 10 类任务和 29 个子类，要求智能体主动探索而非被动感知。实验发现，主动探索显著优于被动多视角，但大多数失败源于“行动盲视”——错误行动导致错误观察，进而引发级联错误。即使引入 3D 空间理解，不完美的 3D 表示反而比 2D 基线更差。人类研究显示，模型缺乏元认知能力，过早下结论且不修正信念，暴露了感知与行动闭环中的关键鸿沟。

论文具身智能空间推理感知-行动闭环基准测试 MLLM

推荐理由：做具身智能、机器人或空间推理的团队，ESI-Bench 直接点出了当前 MLLM 在主动探索和行动决策上的致命短板，看完会重新思考你的感知-行动闭环设计。

原文

14:02

arXiv: DeepSeek@Jing Wang, Hongxuan Lu, Jazze Young, Shu Wang, Zhimin Xin

精选

DBES 是一个针对混合专家模型（MoE）中专家专业化程度的系统评估框架，包含多领域基准和五个理论驱动的指标：路由专业化、归一化有效秩、领域隔离度、路由刚度评分和N-gram专家度。研究发现不同模型呈现不同专业化范式：Qwen系列表现出模块化专业化和高领域隔离，而DeepSeek和GLM采用分布式协作。更重要的是，通过DBES识别高专业化专家路径进行领域特定后训练，仅用15%的训练资源即可实现66%到94.48%的专业领域性能提升。这项工作首次提供了独立于准确率指标的专家专业化评估方法，为下一代MoE系统的设计和后训练优化提供了关键见解。

论文 MoE 专家专业化基准测试路由机制后训练优化

推荐理由：MoE模型的路由机制一直是个黑盒，DBES让开发者能真正量化专家是否在干专长的事。做MoE训练或微调的团队，可以用这套指标直接优化后训练效率，省资源又提效果，值得一试。

原文

10:54

arXiv cs.LG@David Chanin

精选72°

一篇来自 arXiv 的论文对 SAEBench（稀疏自编码器标准评估套件）中的质量指标进行了审计，发现 Targeted Probe Perturbation (TPP) 和 Spurious Correlation Removal (SCR) 在标准设置下无法通过多种可靠性测试，不应再用于 SAE 评估。其他指标也存在噪声高、区分度低的问题。sae-probes 变体是测试中最可靠的指标，但仍难以区分同一架构的不同变体。研究结论指出，当前 SAE 领域需要更好的基准测试方法。

论文稀疏自编码器可解释性基准测试 SAEBench 可靠性审计

推荐理由：做可解释性研究的团队会发现，你依赖的 SAE 评估指标可能不可靠——TPP 和 SCR 已被证伪，建议改用 sae-probes 并关注新基准的进展。

原文

10:26

arXiv: Anthropic@Isaac David, Arthur Gervais

精选

Anthropic在2026年4月发布的Mythos材料中声称其模型能发现真实漏洞，但本文通过控制实验复现了这些漏洞发现任务。实验让GPT-5.5、Claude Opus 4.7和Kimi K2在给定目标文件、只读源码和手动匹配规则下，尝试复现6个已知漏洞。结果显示，GPT-5.5在54次尝试中仅成功5次（覆盖2/6任务），Claude Opus 4.7成功1次，Kimi K2为0次。主要失败原因是模型过早锁定看似合理的候选错误，而忽略了补丁证据中的具体不变性。该结果不否定Anthropic未公开的工作流程，但表明在有利的靶标文件框架下，系统特定提示仅产生少量匹配。

论文漏洞发现基准测试 GPT-5.5 Claude Opus 4.7 Kimi K2

推荐理由：这个实验戳破了AI漏洞发现能力的泡沫——即使给定了目标文件，顶级模型复现已知漏洞的成功率也极低。做AI安全评估或漏洞研究的团队，看完会重新审视benchmark的可靠性。

原文

10:12

arXiv cs.AI@Zhaoyue Sun, Hainiu Xu, Andero Uusberg, James J. Gross, Petr Slovak, Yulan He

精选

现有LLM情绪理解评估依赖离散标签预测，忽略了情绪产生的认知过程。研究者基于评价理论提出CAREBench，首个包含完整推理链注释的基准，涵盖评价推理、评价评分和多标签情绪标注，从第一和第三人称视角分析真实叙事。实验发现，强模型在某些任务上达到或超越人类，但在评价推理和积极情绪识别上仍有不足；模型在推理链步骤和评价干预敏感性上表现出分离现象，且未内化人类主观异质性的机制。这表明下游情绪预测指标可能高估了LLM的真实情绪理解能力，CAREBench为更诊断性的情感认知评估提供了基础。

论文 LLM 情绪理解评价理论基准测试认知推理

推荐理由：做AI情感计算或人机交互的团队，这个基准能帮你发现模型在情绪理解上的真实短板——别被下游指标骗了，建议点开看看评价推理链的设计。

原文

10:09

arXiv cs.AI@Zoher Kachwala, Bao Tran Truong, Rasika Muralidharan, Haewoon Kwak, Jisun An, Filippo Menczer

精选

社交媒体正走向多元化，不同社区有各自的规则。研究者提出了PluRule基准，包含来自1989个Reddit社区的13371条规则违规案例，覆盖9种语言。测试发现，即使是GPT-5.2等先进模型，在识别违规内容时表现也仅略优于简单基线。增加模型规模和上下文信息带来的提升有限，而通用规则（如文明用语）更容易被检测。这表明，AI在多元社区的内容审核仍面临根本性挑战。

论文内容审核多元社区基准测试 Reddit 多语言

推荐理由：内容审核从业者和社区运营团队会关心：现有AI模型在多元规则下表现堪忧，PluRule为评估和提升审核系统提供了关键基准，值得深入研究。

原文

09:57

arXiv cs.AI@Wentao Long, Yunfei Zhang, Chenyi Li, Li Zhou, Chumin Sun, Zaiwen Wen

精选

CAM-Bench是一个新的Lean 4定理证明基准，包含1000个计算与应用数学领域的证明目标，涵盖优化、数值线性代数和数值分析。这些题目改编自教科书习题，依赖局部定义、符号和算法。研究者开发了依赖恢复管道，将每个问题标准化为独立定理并翻译成Lean目标。该基准填补了现有形式化数学基准（如IMO风格问题）的空白，聚焦于应用数学中依赖教科书概念和初等定理的题目。评估显示，现有大模型和形式化代理在跟踪局部假设、应用初等结果、分解证明和长期控制方面存在常见失败模式。

论文定理证明 Lean 4 基准测试应用数学形式化验证

推荐理由：做形式化验证或AI数学推理的团队终于有了应用数学方向的专用基准，比纯代数题更贴近实际工程场景，建议关注其失败模式分析来改进模型。

原文

09:56

arXiv cs.AI@Emad Abukhousa, Saman Zonouz, A. P. Sakis Meliopoulos

精选

该研究提出了一个延迟感知的基准框架，用于评估深度学习模型在电力系统异常检测中的表现。研究使用工业级电磁暂态模拟器生成的高保真时域信号，系统评估了从MLP到Transformer的八种神经网络架构。所有模型都能在15毫秒内实时分类多事件序列，但端到端推理延迟在50-90毫秒之间，超过了保护级部署的要求。结果表明算法能力与实际部署之间存在关键差距，需要进一步优化和硬件加速。该工作为亚周期异常检测建立了可复现的基准，指导机器学习方法从研究原型向实际保护应用过渡。

论文深度学习电力系统异常检测延迟感知基准测试

推荐理由：电力系统安全研究者终于有了一个可复现的延迟感知基准——它揭示了AI模型在逆变器主导电网中实时分类故障与攻击时的实际性能瓶颈。做电力系统保护或AI部署的团队可以直接参考这些数据来优化模型和硬件选择。

原文

5月15日

10:51

arXiv cs.AI@Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez

精选

多镜头视频生成面临跨镜头实体（角色、物体、场景）一致性难题，现有评估方法覆盖有限且指标简单。研究者推出 EntityBench 基准，包含 140 个剧集（2491 个镜头），按难易分三档，最长 50 个镜头、13 个跨镜头角色、8 个场景、22 个物体，并设计三支柱评估套件（画质、指令遵循、跨镜头一致性），仅通过保真门控的实体才计入一致性评分。作为基线，提出 EntityMem 记忆增强系统，在生成前将已验证的实体视觉参考存入持久记忆库。实验表明现有方法跨镜头一致性随镜头间隔急剧下降，而 EntityMem 在角色保真度（Cohen's d = +2.33）和出现率上最优。代码和数据已开源。

论文视频生成实体一致性基准测试记忆增强多镜头叙事

推荐理由：视频生成领域终于有了严肃的实体一致性基准，做多镜头叙事生成的研究者可以直接用这套评估体系，EntityMem 的记忆方案也值得复现试试。

原文

5月14日

13:26

arXiv cs.LG@Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Fanny Riols, Hoang H. Nguyen, Raghav Mehndiratta, Lindsay Devon Brin, Joseph Marinier, Hari Subramani, Anil Madamala, Sridhar Krishna Nemala, Srinivas Sunkara

精选

EVA-Bench 是一个全新的端到端评估框架，专门用于测试语音智能体（Voice Agents）在真实对话场景中的表现。它解决了现有基准无法同时模拟动态对话和全面衡量语音特有失败模式的问题。框架包含 213 个企业级场景，并引入两个复合指标：EVA-A（准确性）和 EVA-X（体验），分别评估任务完成度、忠实度、语音保真度以及对话流畅性、简洁性和轮次时机。在 12 个系统上的测试显示，没有系统能同时在两个指标上超过 0.5，且峰值性能与可靠性能差距显著。该框架已开源，为语音智能体的标准化评估提供了新工具。

论文语音智能体评估框架基准测试企业应用开源

推荐理由：做语音智能体或对话系统的团队终于有了一个能同时测准确性和体验感的基准——EVA-Bench 覆盖了企业场景和噪声鲁棒性，直接帮你对比不同架构的优劣，建议点开看看具体指标设计。

原文

5月13日

19:12

arXiv cs.LG@Seokwon Jung, Alexander Rubinstein, Arnas Uselis, Sangdoo Yun, Seong Joon Oh

精选

MEME 是一个针对 LLM 智能体在多会话环境中记忆能力的新基准，覆盖了多实体和演化两个维度的六项任务，其中三项（级联、缺失、删除）是此前工作未评估的。在 100 个受控场景中测试了六种记忆系统，发现所有系统在默认配置下的依赖推理任务上表现极差（级联任务平均准确率 3%，缺失任务 1%），尽管静态检索性能尚可。提示优化、更深层检索、减少填充噪声以及更强的大模型都无法弥补这一差距。只有基于文件的智能体配合 Claude Opus 4.7 能部分改善，但成本是基准方案的约 70 倍，说明当前依赖推理的解决方案不具备可扩展性。

论文 LLM 智能体记忆系统基准测试依赖推理 MEME

推荐理由：做 LLM 智能体长期记忆系统的团队会发现，现有方案在依赖推理上几乎失效——MEME 基准暴露了被忽视的盲区，值得点开看看你的系统能否通过级联和缺失任务。

原文

19:12

arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song

精选75°

ExploitGym 是一个大规模、多样化的基准测试，用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例，涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示，前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例，即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险，为防御和攻击场景提供了重要测试平台。

论文安全漏洞 AI智能体基准测试漏洞利用 Claude Mythos Preview GPT-5.5

推荐理由：安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景，做渗透测试或 AI 安全评估的团队可以直接拿来用。

原文

5月12日

19:11