全部 AI 动态 · AI 热点

5月23日

09:12

LlamaIndex@llama_index

LlamaIndex 推出了 ParseBench，这是首个专门为 AI 智能体设计的文档 OCR 基准测试。现有的基准测试无法满足 AI 智能体在实际生产环境中的需求，ParseBench 填补了这一空白。该基准测试旨在评估文档解析器在真实场景下的表现，帮助开发者判断其是否适合投入生产。LlamaIndex 将通过线上研讨会详细解读 ParseBench 的设计原理和应用方法。

AI产品文档解析 OCR 基准测试 AI智能体 LlamaIndex

推荐理由：做文档解析或 AI 智能体开发的团队，终于有了一个贴近真实生产环境的评估标准，建议关注 ParseBench 的细节，看看你的解析器能否通过考验。

原文

5月22日

13:25

Logan Kilpatrick@OfficialLoganK

88°

Google 的 Gemini 3.5 Flash 模型在 GDPval 基准测试中相比 3.1 Pro 取得了显著进步，性能已接近前沿水平。这表明后训练（post-training）技术仍在持续提升模型能力。该消息由开发者 Logan Kilpatrick 在 X 上分享，引发社区关注。Gemini 3.5 Flash 作为轻量级模型，其竞争力提升对开发者选择高效模型具有参考价值。

AI模型 Gemini 3.5 Flash GDPval 后训练基准测试模型进步

推荐理由：轻量模型逼近前沿，做推理或成本敏感应用的开发者值得关注——Flash 系列可能成为性价比新选择。

原文

11:44

arXiv: Anthropic@Lukas Weidener, Marko Brkić, Mihailo Jovanović, Emre Ulgac, Aakaash Meduri

精选72°

RefusalBench是一个新的基准测试，包含141个提示（47组），通过保持任务框架不变、仅改变生物风险等级（良性、边缘、双重用途），来评估前沿大语言模型在合法生物研究提示上的拒绝行为。在2026年5月的19个前沿模型快照中，严格拒绝率从0.1%到94.6%不等，且拒绝率不能准确反映安全校准水平。例如，Grok 4.20在风险区分度上表现最佳（Youden's J = 0.787），但整体拒绝率仅排第七；Claude Opus 4.7的区分度较之前版本下降65%。该研究还发现，18个模型中有9个在双重用途提示上表现出“回避但帮助”的部分合规模式，而二元拒绝指标无法检测到这一点。

论文安全评估基准测试生物研究拒绝行为前沿模型

推荐理由：做AI安全评估或生物研究合规的团队，这个基准能帮你避开“拒绝率越高越安全”的误区——Grok 4.20的案例值得点开看看。

原文

00:42

AK@_akhaliq

LongMINT 是一个新的基准测试，专门用于评估长时域智能体系统在多目标干扰环境下的记忆性能。该基准通过模拟多个目标同时存在且相互干扰的场景，测试智能体能否准确记忆和检索关键信息。实验发现，现有智能体系统在长时域任务中记忆表现显著下降，尤其是当干扰目标增多时。这一研究揭示了当前智能体系统在复杂、动态环境中的记忆瓶颈，为改进智能体记忆机制提供了重要参考。

论文智能体记忆评估长时域任务基准测试多目标干扰

推荐理由：做智能体系统开发的团队会直接受益——LongMINT 暴露了长时域任务中记忆干扰的痛点，看完你会重新审视自己的记忆模块设计。

原文

5月21日

22:19

Logan Kilpatrick@OfficialLoganK

76°

Gemini 3.5 Flash 在 APEX-Agents-AA 基准测试中排名第一，超越了参数规模更大的模型。该基准专注于智能体能力评估，Gemini 3.5 Flash 以较小模型实现了领先性能，展示了高效架构的优势。这一结果对智能体开发领域具有重要意义，表明模型效率与性能可以兼得。

AI模型 Gemini 3.5 Flash 智能体基准测试模型效率 APEX-Agents

推荐理由：智能体开发者可以关注：Gemini 3.5 Flash 用更小参数实现了更强性能，意味着更低成本和更快响应，值得在项目中尝试。

原文

12:28

Logan Kilpatrick@OfficialLoganK

精选

Gemini 3.5 Flash 在 Zapier 推出的 Automation Bench 基准测试中排名第一，超越 GPT-4o、Claude 3.5 等其他前沿模型。该模型以显著更低的推理成本实现领先性能，展示了高效自动化任务处理能力。基准测试涵盖多步骤工作流，Gemini 3.5 Flash 的胜出凸显其性价比优势。

AI模型 Gemini 3.5 Flash Zapier Automation Bench 基准测试成本

推荐理由：谷歌新模型跑分第一还省钱

原文

12:27

arXiv cs.LG@Elle Miller, Jayaram Reddy, Ayush Deshmukh, Trevor McInroe, David Abel, Oisin Mac Aodha, Sethu Vijayakumar

精选72°

机器人触觉强化学习（RL）研究因碎片化和过度关注饱和的定向任务而受阻。roto 2.0 是一个 GPU 并行化的基准测试，覆盖四种不同机器人形态（16-24 自由度），专注于仅依赖本体感觉和触觉的“盲”操作，无需状态信息或知识蒸馏。其盲代理在 10 秒内完成 13 次 Baoding 球旋转，速度比当前最先进水平快一个数量级。通过开源环境和调优基线，该工作降低了入门门槛，让研究者能聚焦核心算法挑战。

论文触觉感知强化学习机器人操作基准测试 GPU并行

推荐理由：触觉 RL 终于有了标准化的 GPU 并行基准，做机器人操作和强化学习的团队可以直接用 roto 2.0 测试算法，不用再花时间调环境——盲操速度提升 10 倍的结果值得点开看看。

原文

11:33

arXiv cs.AI@Haiyang Shen, Jiuzheng Wang, Taian Guo, Mugeng Liu, Wenchun Jing, Chongyang Pan, Siqi Zhong, Zhiyang Chen, Weichen Bi, Yudong Han, Xiaoying Bai, Yun Ma

精选

北京大学团队提出一种新的AI教育方法：让学生通过构建基准测试来学习AI，而非仅将其作为效率工具。学生将学科知识转化为可验证的专家级问题，互相审查设计中的歧义和捷径，并评估AI系统。由此产生的QuestBench包含256个问题，覆盖14个人文社科领域。评估显示，13个AI系统的平均通过率仅16.85%，最佳系统GPT-5.5也仅达57.58%，暴露了当前深度研究系统的隐藏失败。学生反馈表明，这种实践帮助他们将专业知识视为判断AI输出的基础，而非AI可检索的内容。

论文 AI教育基准测试深度研究系统人文社科开源/仓库

推荐理由：想让学生真正理解AI局限性的教育者，可以用QuestBench的方法把课堂变成AI测试场——学生自己设计问题来考AI，比单纯教提示词更有深度。

原文

11:21

arXiv cs.AI@Yakun Yu, Ashley Wiens, Adrián Barahona-Ríos, Benedict Wilkins, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer

精选

现有视觉语言模型（VLM）在游戏故障检测评估中，大多将故障视为静态视觉异常，忽略了时间性故障——这类故障需通过帧间变化才能识别。研究者提出TempGlitch基准，包含五种时间性故障类型及配对的无故障视频，用于系统评估。对12个开源和闭源VLM的测试显示，当前模型在TempGlitch上表现接近随机，要么过于保守漏检，要么过于敏感误报。增加帧采样密度或模型规模并不能可靠解决这些问题。该基准为时间推理、游戏理解和自动化故障检测提供了聚焦测试平台。

论文视觉语言模型游戏QA 故障检测时间推理基准测试

推荐理由：游戏QA团队和VLM研究者终于有了专门测试时间性故障的基准——当前模型表现接近随机，说明这是个硬骨头，做自动化测试的值得关注。

原文

11:05

arXiv cs.AI@Basel Shbita, Pengyuan Li, Anna Lisa Gentile

精选

WikiVQABench 是一个人工策划的知识驱动视觉问答（VQA）基准，通过系统结合 Wikipedia 图像、文章标题和 Wikidata 结构化知识构建。它使用大语言模型生成候选多项选择题，再由人工审核确保事实正确性和视觉-文本一致性，要求每个问题必须依赖外部知识才能正确回答。评估了 15 个视觉语言模型（256M-90B 参数），准确率范围从 24.7% 到 75.6%，表明该基准能有效区分模型在知识密集型推理上的能力。数据集和代码已公开。

论文视觉问答知识驱动基准测试 Wikipedia Wikidata

推荐理由：做 VQA 或视觉语言模型评测的团队终于有了一个真正需要外部知识的基准，不再是纯视觉感知题——想测试模型知识推理能力的可以直接用这个数据集。

原文

11:01

arXiv cs.AI@Sixiong Xie, Zhuofan Shi, Haiyang Shen, Jiuzheng Wang, Siqi Zhong, Mugeng Liu, Chongyang Pan, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma

精选72°

DeepWeb-Bench 是一个新的深度研究基准，旨在评估 AI 模型在开放网络上进行复杂研究的能力。与现有基准不同，该基准要求模型进行大规模证据收集、跨来源整合和长链条多步推理，难度显著提升。研究对九个前沿模型进行了评估，发现检索并非主要瓶颈（仅占12-14%错误），而推导和校准失败占70%以上。强模型和弱模型的失败模式不同：强模型主要因推导不完整出错，弱模型则因虚假精确性出错。该基准还揭示了模型在领域上的真实专长差异，跨模型一致性仅为0.61。

论文基准测试深度研究推理模型评估方法 DeepWeb-Bench

推荐理由：做 AI 评估或研究基准的团队会发现，DeepWeb-Bench 揭示了现有基准无法区分的模型能力差异——尤其是推导和校准的短板。建议关注其分能力族评估和来源溯源设计，这对理解模型真实研究能力很有帮助。

原文

09:46

arXiv cs.AI@Souvick Das, Sallam Abualhaija, Domenico Bianculli

精选

法律领域对检索增强生成（RAG）系统的可靠性要求极高，但现有基准缺乏细粒度评估，且多为英文、面向专家。研究者提出ClaimRAG-LAW数据集，支持法语和英语，覆盖专家与非专家用户，包含多样问题类型。通过细粒度评估框架分析现有法律RAG系统，揭示了检索、生成及声明级分析的局限性。该工作为法律AI的可靠性评估提供了更精准的工具。

论文法律AI RAG/检索增强生成基准测试细粒度评估多语言

推荐理由：法律AI的幻觉问题一直难量化，这个基准把检索和生成拆开评估，做法律NLP或合规系统的团队可以直接用来测试自己的RAG管线。

原文

08:01

AI Breakfast@AiBreakfast

据 AI Breakfast 报道，Google 的 Gemini 3.5 Flash 模型在多个关键基准测试中超越了 Anthropic 的 Opus 4.7，包括终端基准、MCP Atlas、OSWorld 验证、金融代理、CharXiv 推理等。更重要的是，Gemini 3.5 Flash 的成本仅为 Opus 4.7 的一小部分。这一结果挑战了“贵即更好”的认知，表明轻量级模型在特定任务上可能更具性价比。对于预算有限但追求高性能的开发者或团队，这是一个值得关注的信号。

AI模型 Gemini 3.5 Flash Opus 4.7 基准测试性价比模型对比

推荐理由：轻量模型在多个实际任务上反超旗舰模型，做 AI 应用选型的团队可以直接参考这份基准对比来优化成本与效果。

原文

08:00

Thomas Wolf@Thom_Wolf

精选

Terminal-Bench 是一个评估 AI 模型在计算机上使用工具（如命令行）达成目标能力的基准。现在它扩展到了科学领域，推出 T-Bench Science，专门评估 AI 在真实科研工作流中的表现。该基准面向生命科学、物理、地球科学、数学等领域的科学家，并开放任务贡献至 2026 年 8 月。贡献的科研工作流越多样，越能推动下一代 AI 模型更好地辅助日常研究工作。这不是训练数据集，而是用于评估前沿模型性能的基准。Anthropic、OpenAI 和 Google DeepMind 已使用 Terminal-Bench 评估 AI 编程能力，现在科学领域也加入其中。

AI产品基准测试 AI for Science Terminal-Bench 科研工作流 AI 代理

推荐理由：做科研的 AI 用户终于有了专门评估 AI 辅助科研能力的基准——T-Bench Science 直接面向真实工作流，科学家可以贡献自己的流程来推动模型进步，值得关注和参与。

原文

5月20日

23:59

AK@_akhaliq

精选

ESI-Bench是一个新提出的基准测试，专门用于评估具身空间智能。它通过任务设计要求智能体闭合感知-行动循环，测试其在3D空间中的理解与交互能力。该基准由研究团队发布，旨在推动机器人具身智能领域的标准化评估。

AI模型 ESI-Bench 具身智能空间智能基准测试

推荐理由：新基准测试具身空间智能

原文

10:29

arXiv cs.AI@Gioele Molinari, Florian Felten, Soheyl Massoudi, Mark Fuge

精选72°

EngiAI 是一个针对大型语言模型（LLM）在工程设计任务中应用的多智能体框架与基准套件。该基准包含三个评估维度：工作流基准（7种提示风格，涵盖直接工具使用、语义消歧、条件分支等）、检索增强生成（RAG）基准（通过门控评分隔离检索对参数选择的贡献）以及高性能计算（HPC）基准（评估SLURM集群上的端到端ML训练编排）。EngiAI 参考实现基于LangGraph，通过监督架构协调7个专业智能体，统一拓扑优化、文档检索、HPC作业编排和3D打印机控制。在Beams2D问题上，专有模型平均任务完成率达96-97%，而开源4B参数模型为55-78%，条件分支任务最具挑战性（Photonics2D上完成率降至20-53%）。RAG门控验证了检索增强评分接近完美（≈1.0），而无检索时接近零，HPC编排中一个模型100%完成所有步骤，另一个仅50%，揭示了多步骤指令遵循在长工作流中会退化。

论文多智能体系统工程设计基准测试 LangGraph RAG

推荐理由：做工程设计自动化或LLM多智能体系统的开发者，这个基准能帮你精准定位模型在条件分支、RAG和HPC编排上的短板，建议直接参考EngiAI框架来测试自己的方案。

原文

10:25

arXiv cs.AI@Yannis Bendi-Ouis, Romain de Coudenhove, Xavier Hinaut

精选

CogScale 是一个包含 14 个可扩展合成任务的基准测试，旨在隔离和评估模型在不同参数规模下的认知与记忆能力。它提供了一个轻量级标准化框架，让研究者无需大规模训练即可快速验证架构创新。研究者在严格参数预算（1k、10k、100k）下评估了 GRU、LSTM、xLSTM、ESN、Mamba、Transformer 解码器和编码器-解码器七种架构。结果显示，经典 RNN 和回声状态网络在严格参数预算下擅长基础记忆，但只有注意力机制和现代状态空间模型在推理复杂度和任务难度提升时保持高性能。

论文基准测试序列处理记忆能力推理模型 CogScale

推荐理由：序列模型研究者终于有了一个轻量级、可扩展的评估工具，CogScale 能帮你快速筛选架构创新，避免盲目大规模训练的高成本。做记忆与推理能力对比的团队可以直接用这个基准来验证新想法。

原文

05:05

LangChain@LangChainAI

LangChain 指出通用智能体的评估不能仅靠单一测试集，需要区分基准评估和测试覆盖评估。基准评估包含约100个测试用例，覆盖常见场景，用于快速判断智能体是否正常工作。测试覆盖评估则包含多达500个以上用例，覆盖每个任务的多种用户提示和路径，确保全面性。由于全面评估成本高昂（每次可能数千美元），无法频繁运行，因此需要小规模基准集用于持续集成。该观点强调了通用智能体评估的复杂性，并暗示未来可能发布更详细的博客。

AI产品智能体评估/评测 LangChain 测试覆盖基准测试

推荐理由：做通用智能体开发的团队，评估策略往往被低估——LangChain 提出的两套测试集思路解决了成本与覆盖的平衡问题，建议直接参考这个框架来优化自己的评测流程。

原文

5月19日

16:57

Hunyuan@TXhunyuan

腾讯混元团队开源了 Chronicles-OCR，这是一个专门评估视觉大语言模型（VLLM）对古代汉字视觉感知能力的基准。该数据集跨越 3000 年文字演变，涵盖从甲骨文到草书的 7 种历史字体，包含 2800 张均衡分布的图像。基准评估模型在字符定位、细粒度识别、古代文本解析和字体分类四个核心任务上的表现。该工作揭示了视觉分布偏移如何影响模型对古代文字的感知能力，为相关研究提供了重要参考。

论文视觉大语言模型 OCR 古代汉字基准测试开源

推荐理由：做 OCR 或古籍数字化的团队终于有了一个针对古代汉字的专业评估基准，可以直接用来测试自家 VLLM 的视觉感知能力，值得关注。

原文

14:54

arXiv cs.LG@Rohit Patel, Alexandre Rezende, Steven McClain

精选72°

GIM（Grounded Integration Measure）是一个包含 820 道原创问题的新基准，旨在通过要求模型协调多种认知操作（如约束满足、状态跟踪、认知警觉、受众校准）来评估 LLM，而非单纯增加知识难度或抽象推理。该基准使用公共-私有问题拆分以检测数据污染，并基于超过 20 万次模型响应校准了 IRT 模型，提供更稳健的能力估计。研究对 22 个模型和 47 种测试配置进行了全面评估，发现思考预算和量化等家族内配置选择与模型选择同等重要。GIM 解决了现有基准在记忆与能力、推理与实践脱节上的问题，为 LLM 评估提供了新视角。

论文 LLM 评估基准测试认知整合 IRT 模型推理能力

推荐理由：GIM 用多认知域整合任务戳穿了现有基准的饱和困境，做 LLM 评估的团队可以直接用它来检测模型真实推理能力，比 GPQA 和 ARC-AGI 更贴近实际应用场景。

原文

14:32

arXiv cs.AI@Yifan Zhou, Zhentao Zhang, Ziming Cheng, Shuo Zhang, Qizhen Lan, Zhangquan Chen, Zhi Yang, QianyuXu, Ronghao Chen, Huacan Wang, Sen Hu

精选

SkillGenBench 是一个专门评估 LLM 智能体技能生成能力的基准测试。现有基准主要测试智能体使用已有技能或解决下游任务的能力，但忽略了技能生成本身。该基准覆盖两种生成模式：任务条件生成（根据任务生成特定技能）和任务无关生成（预先提炼可复用的技能库），并包含两种来源：代码仓库和长文档。实验显示不同方法性能差异大，可复用技能蒸馏尤为困难，且从仓库和文档生成技能时失败模式不同。SkillGenBench 为研究智能体系统中的技能生成提供了可复现的测试平台。

论文 LLM智能体技能生成基准测试可复用技能代码仓库

推荐理由：做 LLM 智能体系统或工具链的开发者会发现，技能生成才是当前瓶颈——这个基准直接暴露了从仓库和文档生成可执行技能的难点，值得用来检验自己的管线。

原文

14:27

arXiv cs.AI@Feng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma

精选

DexHoldem 是一个基于 ShadowHand 灵巧手系统的真实世界基准测试，围绕德州扑克操作任务设计。它提供了 1470 个遥操作演示、14 种操作原语、标准化物理策略基准和智能体感知基准。实验显示，π0.5 在原始执行上完成率最高（61.2%），而 Opus 4.7 在感知准确率上领先（34.3%），但整体闭环部署中感知与策略错误会累积。该工作旨在评估灵巧操作、智能体感知和具身决策路由的协同能力。

论文灵巧操作具身智能基准测试德州扑克 ShadowHand

推荐理由：灵巧操作与决策感知的闭环评估是具身智能的硬骨头，做机器人操作或具身智能的团队值得看看这个新基准怎么暴露真实部署中的累积错误。

原文

14:23

arXiv cs.AI@Yining Hong, Jiageng Liu, Han Yin, Manling Li, Leonidas Guibas, Li Fei-Fei, Jiajun Wu, Yejin Choi

精选72°

研究团队提出 ESI-Bench，一个基于 OmniGibson 的具身空间智能基准，涵盖 10 类任务和 29 个子类，要求智能体主动探索而非被动感知。实验发现，主动探索显著优于被动多视角，但大多数失败源于“行动盲视”——错误行动导致错误观察，进而引发级联错误。即使引入 3D 空间理解，不完美的 3D 表示反而比 2D 基线更差。人类研究显示，模型缺乏元认知能力，过早下结论且不修正信念，暴露了感知与行动闭环中的关键鸿沟。

论文具身智能空间推理感知-行动闭环基准测试 MLLM

推荐理由：做具身智能、机器人或空间推理的团队，ESI-Bench 直接点出了当前 MLLM 在主动探索和行动决策上的致命短板，看完会重新思考你的感知-行动闭环设计。

原文

14:02

arXiv: DeepSeek@Jing Wang, Hongxuan Lu, Jazze Young, Shu Wang, Zhimin Xin

精选

DBES 是一个针对混合专家模型（MoE）中专家专业化程度的系统评估框架，包含多领域基准和五个理论驱动的指标：路由专业化、归一化有效秩、领域隔离度、路由刚度评分和N-gram专家度。研究发现不同模型呈现不同专业化范式：Qwen系列表现出模块化专业化和高领域隔离，而DeepSeek和GLM采用分布式协作。更重要的是，通过DBES识别高专业化专家路径进行领域特定后训练，仅用15%的训练资源即可实现66%到94.48%的专业领域性能提升。这项工作首次提供了独立于准确率指标的专家专业化评估方法，为下一代MoE系统的设计和后训练优化提供了关键见解。

论文 MoE 专家专业化基准测试路由机制后训练优化

推荐理由：MoE模型的路由机制一直是个黑盒，DBES让开发者能真正量化专家是否在干专长的事。做MoE训练或微调的团队，可以用这套指标直接优化后训练效率，省资源又提效果，值得一试。

原文

12:31

LlamaIndex@llama_index

LlamaIndex 推出了 ParseBench，这是首个专门为 AI 智能体设计的文档 OCR 基准测试。现有的基准测试无法满足 AI 智能体在文档解析方面的实际需求，ParseBench 填补了这一空白。该基准测试将帮助开发者评估文档解析器在生产环境中的真实表现。LlamaIndex 将通过线上研讨会详细解读其背后的原理和方法。

AI产品文档解析 OCR 基准测试 AI智能体 LlamaIndex

推荐理由：做文档解析或 AI 智能体应用的开发者终于有了针对性的评估工具，ParseBench 能帮你判断解析器是否真的 ready for production，建议关注后续研讨会细节。

原文

11:51

Jerry Liu@jerryjliu0

精选

LlamaIndex 创始人 Jerry Liu 宣布发布 ParseBench，这是一个专门测试前沿模型理解真实企业文档能力的基准。现有基准多聚焦于编程和推理，但文档理解是下游知识工作的前提。ParseBench 涵盖密集表格、图表、复杂布局等真实场景，尤其针对金融、保险、法律等行业的文档。该基准已开放论文、排行榜和完整数据集，并计划举办线上研讨会。

AI产品文档理解基准测试 LlamaIndex 企业文档智能体

推荐理由：做文档解析或企业级 AI 智能体的团队终于有了针对性的评估工具——ParseBench 填补了现有基准只测代码不测文档的空白，做文档理解相关开发的人可以直接用它验证模型效果。

原文

10:54

arXiv cs.LG@David Chanin

精选72°

一篇来自 arXiv 的论文对 SAEBench（稀疏自编码器标准评估套件）中的质量指标进行了审计，发现 Targeted Probe Perturbation (TPP) 和 Spurious Correlation Removal (SCR) 在标准设置下无法通过多种可靠性测试，不应再用于 SAE 评估。其他指标也存在噪声高、区分度低的问题。sae-probes 变体是测试中最可靠的指标，但仍难以区分同一架构的不同变体。研究结论指出，当前 SAE 领域需要更好的基准测试方法。

论文稀疏自编码器可解释性基准测试 SAEBench 可靠性审计

推荐理由：做可解释性研究的团队会发现，你依赖的 SAE 评估指标可能不可靠——TPP 和 SCR 已被证伪，建议改用 sae-probes 并关注新基准的进展。

原文

10:26

arXiv: Anthropic@Isaac David, Arthur Gervais

精选

Anthropic在2026年4月发布的Mythos材料中声称其模型能发现真实漏洞，但本文通过控制实验复现了这些漏洞发现任务。实验让GPT-5.5、Claude Opus 4.7和Kimi K2在给定目标文件、只读源码和手动匹配规则下，尝试复现6个已知漏洞。结果显示，GPT-5.5在54次尝试中仅成功5次（覆盖2/6任务），Claude Opus 4.7成功1次，Kimi K2为0次。主要失败原因是模型过早锁定看似合理的候选错误，而忽略了补丁证据中的具体不变性。该结果不否定Anthropic未公开的工作流程，但表明在有利的靶标文件框架下，系统特定提示仅产生少量匹配。

论文漏洞发现基准测试 GPT-5.5 Claude Opus 4.7 Kimi K2

推荐理由：这个实验戳破了AI漏洞发现能力的泡沫——即使给定了目标文件，顶级模型复现已知漏洞的成功率也极低。做AI安全评估或漏洞研究的团队，看完会重新审视benchmark的可靠性。

原文

10:12

arXiv cs.AI@Zhaoyue Sun, Hainiu Xu, Andero Uusberg, James J. Gross, Petr Slovak, Yulan He

精选

现有LLM情绪理解评估依赖离散标签预测，忽略了情绪产生的认知过程。研究者基于评价理论提出CAREBench，首个包含完整推理链注释的基准，涵盖评价推理、评价评分和多标签情绪标注，从第一和第三人称视角分析真实叙事。实验发现，强模型在某些任务上达到或超越人类，但在评价推理和积极情绪识别上仍有不足；模型在推理链步骤和评价干预敏感性上表现出分离现象，且未内化人类主观异质性的机制。这表明下游情绪预测指标可能高估了LLM的真实情绪理解能力，CAREBench为更诊断性的情感认知评估提供了基础。

论文 LLM 情绪理解评价理论基准测试认知推理

推荐理由：做AI情感计算或人机交互的团队，这个基准能帮你发现模型在情绪理解上的真实短板——别被下游指标骗了，建议点开看看评价推理链的设计。

原文

10:09

arXiv cs.AI@Zoher Kachwala, Bao Tran Truong, Rasika Muralidharan, Haewoon Kwak, Jisun An, Filippo Menczer

精选

社交媒体正走向多元化，不同社区有各自的规则。研究者提出了PluRule基准，包含来自1989个Reddit社区的13371条规则违规案例，覆盖9种语言。测试发现，即使是GPT-5.2等先进模型，在识别违规内容时表现也仅略优于简单基线。增加模型规模和上下文信息带来的提升有限，而通用规则（如文明用语）更容易被检测。这表明，AI在多元社区的内容审核仍面临根本性挑战。

论文内容审核多元社区基准测试 Reddit 多语言

推荐理由：内容审核从业者和社区运营团队会关心：现有AI模型在多元规则下表现堪忧，PluRule为评估和提升审核系统提供了关键基准，值得深入研究。

原文

09:57

arXiv cs.AI@Wentao Long, Yunfei Zhang, Chenyi Li, Li Zhou, Chumin Sun, Zaiwen Wen

精选

CAM-Bench是一个新的Lean 4定理证明基准，包含1000个计算与应用数学领域的证明目标，涵盖优化、数值线性代数和数值分析。这些题目改编自教科书习题，依赖局部定义、符号和算法。研究者开发了依赖恢复管道，将每个问题标准化为独立定理并翻译成Lean目标。该基准填补了现有形式化数学基准（如IMO风格问题）的空白，聚焦于应用数学中依赖教科书概念和初等定理的题目。评估显示，现有大模型和形式化代理在跟踪局部假设、应用初等结果、分解证明和长期控制方面存在常见失败模式。

论文定理证明 Lean 4 基准测试应用数学形式化验证

推荐理由：做形式化验证或AI数学推理的团队终于有了应用数学方向的专用基准，比纯代数题更贴近实际工程场景，建议关注其失败模式分析来改进模型。

原文

09:56

arXiv cs.AI@Emad Abukhousa, Saman Zonouz, A. P. Sakis Meliopoulos

精选

该研究提出了一个延迟感知的基准框架，用于评估深度学习模型在电力系统异常检测中的表现。研究使用工业级电磁暂态模拟器生成的高保真时域信号，系统评估了从MLP到Transformer的八种神经网络架构。所有模型都能在15毫秒内实时分类多事件序列，但端到端推理延迟在50-90毫秒之间，超过了保护级部署的要求。结果表明算法能力与实际部署之间存在关键差距，需要进一步优化和硬件加速。该工作为亚周期异常检测建立了可复现的基准，指导机器学习方法从研究原型向实际保护应用过渡。

论文深度学习电力系统异常检测延迟感知基准测试

推荐理由：电力系统安全研究者终于有了一个可复现的延迟感知基准——它揭示了AI模型在逆变器主导电网中实时分类故障与攻击时的实际性能瓶颈。做电力系统保护或AI部署的团队可以直接参考这些数据来优化模型和硬件选择。

原文

5月16日

08:36

08:36OpenAI Blog（博客/媒体）

Databricks 宣布在其企业智能体工作流中集成 OpenAI 的 GPT-5.5 模型。该模型在 OfficeQA Pro 基准测试中取得了新的最佳成绩。这一集成旨在帮助企业更高效地构建和部署基于 AI 的自动化工作流，提升办公场景下的任务处理能力。Databricks 的用户现在可以直接在平台上利用 GPT-5.5 的强大推理和生成能力。

AI产品 GPT-5.5 企业智能体工作流 Databricks 基准测试

推荐理由：企业 AI 团队终于有了一个经过基准验证的强模型来驱动智能体工作流——GPT-5.5 在 OfficeQA Pro 上的 SOTA 表现意味着办公自动化场景的准确率有望大幅提升，做企业级 AI 应用开发的团队值得关注。

原文

5月15日

10:51

arXiv cs.AI@Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez

精选

多镜头视频生成面临跨镜头实体（角色、物体、场景）一致性难题，现有评估方法覆盖有限且指标简单。研究者推出 EntityBench 基准，包含 140 个剧集（2491 个镜头），按难易分三档，最长 50 个镜头、13 个跨镜头角色、8 个场景、22 个物体，并设计三支柱评估套件（画质、指令遵循、跨镜头一致性），仅通过保真门控的实体才计入一致性评分。作为基线，提出 EntityMem 记忆增强系统，在生成前将已验证的实体视觉参考存入持久记忆库。实验表明现有方法跨镜头一致性随镜头间隔急剧下降，而 EntityMem 在角色保真度（Cohen's d = +2.33）和出现率上最优。代码和数据已开源。

论文视频生成实体一致性基准测试记忆增强多镜头叙事

推荐理由：视频生成领域终于有了严肃的实体一致性基准，做多镜头叙事生成的研究者可以直接用这套评估体系，EntityMem 的记忆方案也值得复现试试。

原文

5月14日

13:37

百川智能 Baichuan@BaichuanAI

百川AI在HealthBench、Hard、Hallucination和ScanBench等多项基准测试中取得领先成绩，其中HealthBench得分65.1，Hard得分44.4，幻觉率仅3.5%低于ChatGPT，ScanBench全站排名第一。这显示了百川AI在医疗、推理和抗幻觉方面的显著进步，对AI应用开发者具有重要参考价值。

AI模型百川AI 基准测试医疗AI 抗幻觉推理模型

推荐理由：百川AI在多个关键基准上超越ChatGPT，做医疗AI或高可靠性应用的团队值得关注其低幻觉率表现。

原文

13:26

arXiv cs.LG@Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Fanny Riols, Hoang H. Nguyen, Raghav Mehndiratta, Lindsay Devon Brin, Joseph Marinier, Hari Subramani, Anil Madamala, Sridhar Krishna Nemala, Srinivas Sunkara

精选

EVA-Bench 是一个全新的端到端评估框架，专门用于测试语音智能体（Voice Agents）在真实对话场景中的表现。它解决了现有基准无法同时模拟动态对话和全面衡量语音特有失败模式的问题。框架包含 213 个企业级场景，并引入两个复合指标：EVA-A（准确性）和 EVA-X（体验），分别评估任务完成度、忠实度、语音保真度以及对话流畅性、简洁性和轮次时机。在 12 个系统上的测试显示，没有系统能同时在两个指标上超过 0.5，且峰值性能与可靠性能差距显著。该框架已开源，为语音智能体的标准化评估提供了新工具。

论文语音智能体评估框架基准测试企业应用开源

推荐理由：做语音智能体或对话系统的团队终于有了一个能同时测准确性和体验感的基准——EVA-Bench 覆盖了企业场景和噪声鲁棒性，直接帮你对比不同架构的优劣，建议点开看看具体指标设计。

原文

01:10

AK@_akhaliq

EgoMemReason 是一个新的基准测试，专门用于评估 AI 在长时间自我中心视频理解中的记忆驱动推理能力。该基准要求模型在观看长视频后，基于记忆回答关于事件顺序、因果关系和细节的问题。它填补了现有视频理解基准在长期记忆和推理方面的空白，对开发更智能的视觉助手和机器人有重要意义。