全部 AI 动态 · AI 热点

6月3日

10:31

arXiv: DeepSeek@Ruihui Hou, Siyi Zhu, Ziyue Huai, Guangya Yu, Yongqi Fan, Chunming Wang, Tong Ruan

现有基准主要评估大模型在单疗程场景中的表现，缺乏对多疗程（患者病情随时间演变）的系统评估。为此，研究者提出了ClinicalMC基准，包含1275个中文和5804个英文样本，覆盖从入院到出院的四个阶段（分诊、首诊检查/诊断/治疗、后续多疗程检查/评估/治疗、最终诊断）。英文数据集患者平均经历5.11个疗程，中文数据集为3.42个。他们构建了包含患者、考官和医生智能体的多智能体评估框架，并设计了单轮静态和多轮动态两种实验设置，评估了闭源模型（如GPT5-mini）、开源模型（如DeepSeek-V3.2）和医疗模型（如HuatuoGPT-o1）。该工作旨在更好地理解大模型在医疗领域的表现，支持其有效部署。

论文临床决策多疗程基准测试医疗AI 多智能体评估

推荐理由：医疗AI开发者终于有了评估模型在多疗程动态决策中的基准——ClinicalMC覆盖从分诊到出院的完整流程，做临床决策系统的团队可以直接拿来测模型。

原文

10:16

arXiv cs.AI@Eric Cho, Shawn Huang, Alice Lu, Andy Lyu

精选

Hedge-Bench 1.0 是一个针对金融推理的 AI 智能体基准测试，包含 102 个来自对冲基金分析师实际工作中的真实任务。与现有依赖模型评判的基准不同，它基于专家推理轨迹进行确定性评分，避免了噪声和循环论证。测试结果显示，前沿模型和智能体在该基准上的得分低于 16%，说明当前 AI 在复杂金融推理上仍有巨大差距。该数据集和评估工具已在 GitHub 开源。

论文金融推理智能体基准测试对冲基金开源/仓库

推荐理由：金融 AI 终于有了硬核的推理基准——不是算公式或查文档，而是真正考验分析师级别的开放式问题。做量化、金融 NLP 或智能体评估的团队值得关注，可以直接用这个 benchmark 检验自家模型。

原文

08:38

Amjad Masad@amasad

精选

现有SWE基准测试主要关注代码修复和补丁生成，未能充分衡量AI在应用层构建完整Web应用的能力。ViBench是一个新的开源基准，专门评估AI代理在端到端Web应用开发中的表现，涵盖从设计到部署的完整流程。该基准由Michele Catasta提出，旨在填补现有评估体系的空白，帮助开发者更准确地选择适合应用开发的AI模型。对于关注AI编程工具实际应用效果的团队，ViBench提供了更有价值的参考标准。

AI产品基准测试 ViBench Web应用开发 AI编程开源

推荐理由：做AI编程工具选型或评估模型实际应用能力的团队，ViBench比传统SWE基准更能反映真实开发场景，建议关注其测试结果。

原文

6月2日

23:53

AK@_akhaliq

精选

该研究提出GPU Forecasters方法，利用语言模型作为选择性替代来优化GPU内核的运行时性能。在300个内核基准测试中，该方法将预测准确率提升至92%，相比传统模型平均提速1.7倍。实验在NVIDIA A100 GPU上进行，验证了语言模型在运行时预测中的有效性。

论文 GPU Forecasters 语言模型内核优化基准测试 A100

推荐理由：用语言模型预测GPU内核性能，效率提升明显

原文

17:46

rohanpaul_ai@rohanpaul_ai

76°

LongCat 发布了 WBench，一个用于测试视频世界模型的基准，将测试重点从视觉质量转向控制、多轮记忆、指令遵循和物理合理性。WBench 包含 289 个案例、1058 次交互、20 个模型、5 个维度和 22 个自动指标，覆盖导航、主体动作、事件编辑、视角切换等。测试发现，没有模型在所有维度上占优，视觉质量与控制能力几乎无关。WBench 的设计将世界设置与用户动作分离，帮助研究者定位失败原因。这标志着视频世界模型评估从“视频好不好看”转向“模型能否维持可控世界”。

论文视频生成世界模型基准测试 WBench LongCat

推荐理由：做视频生成或世界模型的研究者终于有了正经的评估工具——WBench 把视觉质量和控制能力分开测，看完你会明白为什么很多漂亮视频其实不能当世界模型用。

原文

12:05

arXiv: DeepSeek@Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim

K-BrowseComp 是一个专门针对韩语环境的网页浏览智能体基准测试，包含 400 个问题。其中 300 个问题由韩语母语者手工构建和验证，前沿模型如 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 在该子集上仅达到 30.00-45.67% 的准确率，远低于 BrowseComp 的表现。韩国本土大模型表现更差，仅 0.00-10.33%。研究还构建了 100 个合成问题作为压力测试，最强模型仅达 26.00%。该基准填补了韩语智能体评估的空白，揭示了当前模型在非英语环境下的显著短板。

论文智能体基准测试韩语网页浏览 GPT-5.5 DeepSeek-V4-Pro GLM-5.1

推荐理由：做多语言智能体或网页浏览任务的团队会立刻意识到差距——韩语场景下最强模型准确率不到一半，说明现有评估严重偏向英语。做韩语 NLP 或本地化产品的开发者可以直接用这个基准测试自己的模型。

原文

12:03

arXiv cs.AI@Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen

精选72°

MCP-Persona 是首个专门评估 LLM 智能体在真实个人化 MCP 工具上表现的基准。它覆盖了 Reddit、小红书、飞书、Slack 等主流社交和协作平台，测试智能体与个人账户和本地数据库交互的能力。实验发现，当前最先进的智能体在处理个人化工具时表现挣扎，凸显了该基准在识别和解决这些局限性的关键作用。该基准已开源，可供开发者直接使用。

论文 MCP/工具智能体基准测试个人应用开源/仓库

推荐理由：MCP-Persona 填补了现有基准忽视个人化工具交互的空白，做智能体开发和 MCP 工具集成的团队可以直接用它来测试和优化自己的模型。

原文

12:02

arXiv cs.LG@Xinhao Song, Su Su, Sirui Song, Hongliang Wu, Wen Shen, Zhihua Wei, Gongshen Liu, Linfeng Zhang, Dongrui Liu

精选72°

多模态智能体正被期望替代人类操作界面，但 CAPTCHA 验证是服务商故意设置的自动化屏障。新提出的 HLL 基准测试通过交互式 CAPTCHA 评估智能体能否以类人方式突破这一防线，而非仅靠图像识别。测试覆盖多种验证类型，并引入杂乱网页、困难变体等现实压力因素。结果显示，当前前沿多模态智能体在定位、动作校准、状态追踪和过程一致性上存在明显短板，性能随验证类型和界面复杂度剧烈波动。该基准为衡量智能体在受保护工作流中替代人类的能力提供了具体测试平台。

论文多模态智能体 CAPTCHA 基准测试人机交互自动化

推荐理由：CAPTCHA 是 AI 替代人类操作的最后一道门槛，做智能体自动化或 GUI 操作的团队可以用 HLL 测试自家模型的实际突破能力，结果可能会让你重新评估部署策略。

原文

12:01

arXiv cs.AI@Xiaolin Liu, Yilun Zhu, Xiangyu Zhao, Xuehui Wang, Yan Li, Xin Li, Haoyu Cao, Xing Sun, Shaofeng Zhang, Xu Yang, Zhihang Zhong, Xue Yang

精选72°

视频多模态大语言模型在长视频理解上进步迅速，但它们在捕捉短暂但关键的视觉证据（如几帧内的动作或状态变化）方面能力不足。Moment-Video 是一个新基准，包含 1000 个人工验证的视频问答对，覆盖 7 个领域和 25 个子类别，测试模型在时间发生、计数、动作描述和推理上的表现。评估 33 个模型后，最佳模型 Seed-2.0-Pro 准确率仅 39.6%，多数开源模型低于 25%，揭示了巨大差距。分析表明，密集帧采样能部分改善但无法消除瓶颈，长视频带来更强的定位挑战。这显示当前视频 MLLM 仍缺乏时间保真表示来捕捉和利用短暂但决定性的视觉证据。

论文视频多模态大语言模型基准测试时间保真度瞬间视觉事件 Moment-Video

推荐理由：视频 MLLM 开发者终于有了专门诊断时间保真度的基准——Moment-Video 直击模型在瞬间事件上的致命短板，做视频理解或模型评估的团队值得用它来检验自家模型。

原文

11:59

arXiv cs.AI@Yuxing Lu, Yushuhong Lin, Wenqi Shi, J. Ben Tamo, Xukai Zhao, Jinzhuo Wang, May Dongmei Wang

精选

ClinEnv 是一个交互式基准测试，用于评估大语言模型在真实住院病例中的临床决策能力。它模拟了医生在不确定性下逐步收集信息并做出不可逆决策的过程，每个病例被自动构建为有序的决策阶段，模型必须主动查询四个专业智能体后才能做出诊断和治疗决策。评估结果显示，最强模型仅达到0.31的决策F1分数，且结果质量与过程质量严重脱钩——模型在恢复出院诊断上表现较好（0.51 F1），但在管理行动上很差（0.17 F1），且会持续发出冗余查询。ClinEnv 揭示了传统结果导向评估无法捕捉的信息获取差距。

论文临床决策 LLM评估住院模拟信息获取基准测试

推荐理由：医疗AI开发者终于有了一个能评估LLM临床推理过程的基准——ClinEnv不仅看结果，还看信息收集策略，做临床决策系统的团队值得关注。

原文

11:12

arXiv cs.AI@Stefano Samele, Eugenio Lomurno, Teodora Jovanovic, Sanjay Shivakumar Manohar, Alberto Crivellaro, Matteo Matteucci

工业异常检测领域近年引入多模态视觉语言模型，声称可通过文本指令实现零样本或少样本检测。但现有评估方法沿用单模态基准，无法验证模型是否真正依赖文本条件。本文提出TGAD结构化基准，通过三个递进场景测试：MVTec AD上的提示敏感性测试、组件级标注扩展、以及新构建的组装面板数据集APD。测试发现，三种代表性模型（生成式大视觉语言模型、无训练判别式、嵌入自适应判别式）均仅表面响应文本指令：移除物体名词后生成模型I-AUROC从97.4降至82.6；组件指令无法约束决策；在APD上图像级判别甚至低于随机水平（最低31.5）。结果表明当前多模态异常检测系统的文本引导能力被高估，需要此类基准才能实现工业部署所需的可靠语言控制。

论文异常检测多模态基准测试视觉语言模型工业检测

推荐理由：做工业视觉检测的团队会发现，当前号称支持文本引导的模型其实并不听指令——TGAD基准直接戳破了这个泡沫，建议点开看看你的模型是否真的被语言控制。

原文

11:11

arXiv cs.AI@Oleksandr Nikitin

PlanarBench 是一个新基准，通过让大语言模型根据边列表绘制平面图的 ASCII 艺术来评估其空间推理能力。该任务通过随机排列边顺序、方向和节点标签来防止记忆。研究测试了 91 个模型在 199 个最简单的非异构连通平面图（2-7 个节点）上的表现。关键发现是边数比节点数更能预测任务难度（相关系数 r=-0.85），这一结论在之前的 LLM 图基准中未被报告。

论文空间推理基准测试大语言模型平面图评估

推荐理由：这个基准揭示了 LLM 在空间推理上的真实短板，做模型评估或研究空间智能的团队值得关注——边数作为难度指标的新发现可能改变未来基准设计。

原文

09:39

arXiv cs.AI@Sicheng Yang, Shulan Ruan, Shiwei Wu, Yu Liu, Lu Fan, Zhi Li, You He

72°

PolySpeech-100 是一个大规模语音理解基准，覆盖 110 种语言变体，包括 19 种中文方言和 80 多种低资源语言。它采用混合构建流程，结合人工录音和指令驱动合成语音，解决了现有基准偏重高资源语言、仅关注 ASR 而非语义推理、忽视方言的问题。评估 22 个模型（如 Gemini-3、GPT-Audio、Qwen2.5-Omni）后发现：开源端到端模型在重方言上优于级联系统，但低资源语言上性能严重下降；链式思维提示在零样本设置下反而降低大多数模型的语音理解能力。该基准为下一代包容性语音大模型建立了严格标准，数据和代码已开源。

论文语音理解基准测试多语言/方言端到端模型开源/仓库

推荐理由：语音理解基准终于覆盖了方言和低资源语言，做多语言语音模型或方言应用的团队可以直接用这个基准来评估自己的模型，避免只测英语的偏科问题。

原文

09:38

arXiv cs.AI@Zhihong Liu, Siqi Kou, Zheng Li, Ye Ma, Quan Chen, Peng Jiang, Kai Yu, Zhijie Deng

ProductWebGen 是一个用于评估多模态生成模型在电商产品网页生成任务上能力的基准测试。它包含 500 个测试样本，覆盖 13 个产品类别，每个样本提供源图像、视觉内容指令和网页布局指令，要求模型生成包含多张一致图像的 HTML 网页。研究对比了两种工作流：基于图像编辑模型和语言模型的编辑式方法，以及基于统一多模态模型的端到端方法。实验表明编辑式方法在网页指令遵循和内容吸引力上领先，而统一模型在视觉内容指令执行上更有优势。团队还构建了包含 1000 组真实产品图像和 LLM 生成 HTML 代码的微调数据集 ProductWebGen-1k，并在开源模型 BAGEL 上验证了其有效性。

论文多模态生成电商/广告基准测试 HTML生成图像编辑

推荐理由：电商和广告领域的开发者终于有了一个标准化的产品网页生成评测工具——ProductWebGen 帮你快速对比不同多模态模型在可控生成上的真实表现，做营销自动化或电商页面生成的团队值得关注。

原文

5月31日

22:54

Viking@vikingmute

DeepSWE 对 Opus 4.8 的评分显示，该模型在性能上优于 Opus 4.7，且成本更低、效率更高，但相比 GPT5.5 仍有明显差距。作者表示尚未深度使用 4.8，仍在使用更便宜的 4.6 版本，并指出对基准测试已逐渐祛魅，更看重推特上的真实用户评价。目前普遍认为 GPT5.5 仍是大多数用户的最强模型。

AI模型 Opus 4.8 GPT5.5 模型评测成本效率基准测试

推荐理由：如果你在纠结是否升级到 Opus 4.8，这篇推文帮你省了试错成本——作者用真实体验告诉你，4.8 性价比提升但远不及 GPT5.5，做模型选型的开发者建议看看推文下的真实讨论。

原文

15:56

Decoder@Jonathan Kemper

精选

哈尔滨工业大学的研究人员通过新基准测试LiveBrowseComp发现，主流AI搜索智能体（如GPT-5.4和Kimi K2.6）在标准测试中表现良好，但主要依赖训练记忆而非实时搜索。LiveBrowseComp仅询问过去90天内的事件，迫使模型无法依赖记忆。在此测试下，模型性能显著下降，现有排名被打乱。这表明AI搜索智能体存在“确认偏差”，即倾向于确认已知信息而非真正研究网络。该发现对依赖AI进行实时信息检索的用户和开发者具有重要警示意义。

论文 AI搜索智能体基准测试 GPT-5.4 Kimi K2.6

推荐理由：这项研究戳穿了AI搜索智能体的真实能力——它们更擅长背书而非真正搜索。做信息检索或依赖AI获取最新资讯的团队，看完会重新评估工具选择。

原文

5月30日

16:46

Stanford AI Lab@StanfordAILab

斯坦福AI实验室（SAIL）发布了新基准Theory of Space，旨在测试基础模型是否能够通过主动探索来构建、修正和利用空间信念（即心智地图），而不仅仅是被动处理给定的观察数据。该基准挑战AI在未知环境中主动导航、推理空间关系并更新认知模型的能力。这一研究对于推动AI在机器人、自动驾驶等需要空间理解领域的自主性具有重要意义。

论文空间推理基准测试主动探索心智地图斯坦福AI实验室

推荐理由：做机器人或空间AI的开发者值得关注——这个基准直接测试模型能否像人类一样主动探索并建立空间认知，而不是被动接收数据，看完会对当前模型的局限性有更清晰的认识。

原文

5月29日

14:02

arXiv: OpenAI@Bowen Qin

精选72°

CI失败日志通常庞大且嘈杂（中位数5000行，最多20万行），编程智能体依赖上游工具将日志缩减为可管理的上下文，但此前缺乏公开的实证比较。LogDx-CI基准测试比较了11种上下文缩减工具（包括原始、tail、grep、三种RTK模式、两种LLM map-reduce摘要器、三种混合路由器）在35个真实GitHub Actions失败案例上的表现，由3个LLM调试器家族评分。关键发现包括：混合grep+tail路由器在成本和质量上占据帕累托前沿，前两名方法每个案例约0.03美元，质量与独立grep相当但token减少4.5倍；在智能体循环中，不同缩减工具的质量差距缩小了7倍，但弱上下文会导致智能体发出2-4倍的工具调用；跨家族LLM摘要-调试器组合（gpt-5-mini摘要器+Claude Haiku调试器）优于同家族组合，平均提升0.071分。所有数据、代码和可复现基础设施均已公开。

论文日志缩减 CI调试 LLM根因诊断基准测试 GitHub Actions

推荐理由：做CI调试或AI编程智能体的团队终于有了可依赖的日志缩减基准——LogDx-CI直接告诉你哪种工具省钱又有效，建议做DevOps或Agent开发的点开看。

原文

13:07

arXiv: DeepSeek@Nishal Thomas, Noel Thomas

精选

一项针对数学推理基准 MathCheck（ICLR 2025）的审计发现，其 129 个问题组中有 4 个（3.1%）语义错误的改写，移除后 GPT-4o 从第 2 名跌至第 4 名，Claude Haiku 和 DeepSeek V3 排名上升。跨模型一致性检查（至少 3/4 模型一致）能以不到 10 美元成本自动发现这些错误。在作者自己的数据集中，47% 的自动生成改写存在语义错误。更严重的是，Claude Haiku 4.5 准确率 86% 但语义一致性率（SCR）仅 50%，意味着半数定理在语义等价改写下答案不同；9 个前沿模型准确率差距仅 10 个百分点（86-96%），但 SCR 差距达 32 个百分点（50-82%）。论文提出 FormInv 协议，包括审计方法、SCR 和 Cochran's Q 度量，以及用于场景感知模型选择的 FormInvSelector。

论文基准测试语义不变性数学推理模型评估 FormInv

推荐理由：基准测试的排名可能因语义改写而失真，做模型评估或选型的团队值得关注——你的排名可能选错了赢家。

原文

12:12

arXiv cs.LG@Sy-Tuyen Ho, Minghui Liu, Huy Nghiem, Furong Huang

精选

研究人员推出了SoundnessBench基准测试，包含1,099个从ICLR投稿中重建的机器学习研究提案，并附有评审员的合理性评分。测试了12个前沿大语言模型后发现，它们普遍存在乐观偏差，在标准提示下常将低合理性提案评为合理。即使采用激进提示，也只是将错误从假阳性转为假阴性。控制实验排除了公共语料污染、表面特征等单一干扰因素。结果表明，当前LLM尚不能可靠地作为科学严谨性的独立初审评估者。

论文基准测试 LLM评估科研自动化乐观偏差 ICLR

推荐理由：这个基准测试戳中了AI科研助手的关键短板——无法判断研究想法的可行性，做自动化科研或依赖LLM审稿的团队值得关注，看完会重新评估AI在科研流程中的角色。

原文

12:07

Jerry Liu@jerryjliu0

LlamaIndex 对 Opus 4.8 进行了全面的文档理解基准测试，并与 Opus 4.7 对比。结果显示，Opus 4.8 在表格、语义格式和布局方面略有提升，但在图表和内容忠实度方面出现轻微退化。这表明 Opus 4.8 并未针对视觉文档理解进行专门的后训练。完整结果已发布在 ParseBench 上。LlamaIndex 指出，让 LLM 像人类一样阅读文档仍有大量改进空间，而 LlamaParse 仍是 AI 智能体最佳的文档摄取 API。

AI模型 Opus 4.8 文档理解基准测试 LlamaIndex ParseBench

推荐理由：做文档解析或 RAG 应用的团队，Opus 4.8 的表格能力提升值得关注，但内容忠实度下降可能影响关键业务，建议先跑一遍 ParseBench 再决定是否升级。

原文

11:08

arXiv cs.AI@Valentina Bui Muti, Eugénie Dulout, Ziquan Fu

研究人员开发了一个流水线，将非结构化临床文本转换为符合HL7 FHIR R4标准的结构化数据，用于评估大语言模型在真实电子健康记录环境中的诊断推理能力。该流水线结合了分阶段LLM生成与术语验证修复，减少了幻觉代码，保证了结构一致性。基于此构建的MedCase-Structured数据集在82.5%的病例中成功生成有效FHIR数据。测试发现，LLM在结构化FHIR输入上的诊断准确率普遍低于纯文本输入，凸显了部署对齐基准测试的重要性。

论文临床推理 FHIR 电子健康记录基准测试大语言模型

推荐理由：这项研究解决了临床AI评估中数据格式不匹配的痛点，做医疗AI或临床决策支持的团队可以直接用这个数据集和流水线来测试模型在真实EHR环境下的表现。

原文

11:06

arXiv cs.AI@Chunru Lin, Hongxin Zhang, Fenghao Yu, Zhehuan Chen, Thomas L. Griffiths, Yejin Choi, David Held, Chuang Gan

RoboWits 是一个双手机器人基准测试，旨在系统评估机器人在意外条件下的认知推理、创造性工具使用和鲁棒性。研究团队提出了一个多智能体协作框架，自动生成包含几何、材料和装配推理的 30 个种子任务和 208 个变异任务。测试发现，预训练的视觉-语言-动作模型（VLA）在种子任务上表现尚可，但在变异任务上表现脆弱，无法应对需要推理和策略适应的操作场景。这表明当前机器人策略在创造性问题解决方面存在显著差距。

论文机器人基准测试认知推理视觉-语言-动作模型创造性问题解决

推荐理由：机器人研究者终于有了一个专门测试认知推理和意外应对的基准——RoboWits 揭示了 VLA 模型在变异任务上的脆弱性，做机器人操作和具身智能的团队值得关注这个评估框架。

原文

5月28日

15:35

Pandaily@contact@pandaily.com (Pandaily)

精选

中国多家研究机构联合推出RoboMemArena基准。该基准专门用于评估机器人记忆能力。它聚焦长时操作任务（long-horizon manipulation tasks）。这是首个全面评估机器人记忆的基准。

AI模型 RoboMemArena 机器人记忆基准测试长时操作

推荐理由：首个机器人记忆基准

原文

15:11

阿里云 Alibaba Cloud@alibaba_cloud

精选

阿里云发布的 Qwen3.7-Max 模型在最新企业 IT 基准测试 ITbench-AA 中排名第三。该基准测试专门评估模型处理真实企业 IT 任务的能力，采用智能体（agentic）风格进行评测。这一成绩表明 Qwen3.7-Max 在复杂企业场景下的表现已跻身顶尖水平，尤其在自动化 IT 运维、故障排查等任务上具有竞争力。阿里云借此强调其模型在智能体时代的定位，鼓励企业用户尝试。

AI模型 Qwen3.7-Max 企业IT 基准测试智能体阿里云

推荐理由：Qwen3.7-Max 在企业 IT 基准测试中跻身前三，做企业级 AI 应用或 IT 自动化的团队值得关注——它证明了开源模型也能在真实业务场景中与闭源模型一较高下。

原文

12:01

arXiv cs.LG@Richard J. Young, Gregory D. Moody

精选72°

该论文指出，通用语言模型回答有害问题返回文本，而编程模型若遵从恶意请求可能返回可运行的武器（如键盘记录器、勒索软件）。因此，编程模型应比通用模型有更高的拒绝标准，但现有基准测试碎片化，无法有效衡量。作者整合了8个语料库（共6675条提示），通过5位评审共识协议分类，区分了可执行恶意代码请求（CODE）和有害安全知识请求（KNOWLEDGE）。最终发布了4748条CODE提示和1923条KNOWLEDGE提示，为评估编程模型对恶意代码的拒绝能力提供了可靠工具。

论文安全/对齐编程模型基准测试恶意代码共识标注

推荐理由：编程模型的安全风险比通用模型高一个量级——返回的代码可以直接运行成武器。做AI安全评估的团队终于有了经过共识验证的测试集，建议用这个库来检验自家模型的拒绝边界。

原文

11:36

arXiv: OpenAI@Ian Diks, Harihara Muralidharan, Tim Proctor, Kenny Workman

精选

研究人员推出 SpatialBench-Long 基准测试，专门评估 AI 智能体在空间生物学中的长程科学推理能力。该基准包含 24 个评估任务，涵盖胰腺癌、胶质母细胞瘤、肺癌等多种疾病模型，涉及 CosMx、Visium、Xenium 等多种空间转录组学技术。任务要求智能体从原始或近原始数据中恢复生物学结论，而非执行预设分析流程。当前最佳模型（Gemini 3.5 Flash、GPT-5.5 等）在 72 次运行中仅完成 8 次（11.1%），表明该任务极具挑战性。该基准通过确定性评分和专家审查确保结果可靠性。

论文空间生物学基准测试 AI智能体科学推理 SpatialBench-Long

推荐理由：空间生物学研究者终于有了衡量AI科学推理能力的硬核基准——SpatialBench-Long 要求智能体从复杂空间数据中推导真实结论，而非简单跑流程。做生物信息学或AI for Science的团队，值得看看当前模型的表现差距在哪里。

原文

11:32

arXiv cs.AI@HuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu

精选72°

研究团队发现，基于LLM的搜索智能体在BrowseComp基准测试中，高达44.5%的问题无需工具即可回答，超过一半的搜索查询来自内部假设而非检索线索，表现出对内在知识的依赖而非真正的证据驱动搜索。当移除支持答案的外部证据后，智能体表现甚至不如闭卷基线。为此，团队推出了LiveBrowseComp，一个包含335个依赖90天内发布事实的问题的深度搜索基准，所有智能体在该基准上的闭卷准确率低于2%，搜索增强得分比BrowseComp下降25-40点，且模型排名不再可靠。该基准旨在评估智能体超越内在知识覆盖的真实搜索能力。

论文搜索智能体基准测试内在知识依赖 LLM评估 LiveBrowseComp

推荐理由：这项研究戳穿了搜索智能体的真实能力——它们可能只是在验证已知信息而非真正搜索。做搜索Agent或评估AI检索能力的团队，值得看看LiveBrowseComp这个新基准，避免被静态测试误导。

原文

05:21

rohanpaul_ai@rohanpaul_ai

72°

Datacurve 推出 DeepSWE，一个更严格的编程基准测试，旨在揭示领先模型之间的真实差距。GPT-5.5 得分 70%，而 GPT-5.4 为 56%，Claude Opus 4.7 为 54%，差距在旧基准中常被掩盖。DeepSWE 使用原创任务而非公开 GitHub 问题，避免模型训练时见过答案。其提示词长度仅为 SWE-bench Pro 的一半，但解决方案需要 5.5 倍代码量和约 2 倍输出 token。评分方式也不同，DeepSWE 检查请求行为是否真正实现，而非仅依赖合并 PR 的测试。

AI模型基准测试编程能力 GPT-5.5 Claude Opus 软件工程

推荐理由：做 AI 模型评估或选型的团队，DeepSWE 能帮你看到模型在长周期软件工程任务上的真实差距，建议关注这个新基准。

原文

02:42

02:42Hugging Face: Blog（博客/媒体）

IBM与Artificial Analysis联合推出ITBench-AA，这是首个针对企业IT运维场景的智能体基准测试。测试涵盖事件响应、故障排查等真实任务，结果显示包括GPT-4、Claude在内的前沿模型平均得分低于50%。该基准揭示了当前AI智能体在处理复杂企业IT流程时的能力短板，为行业提供了可量化的评估标准。

AI模型智能体企业IT 基准测试 IBM 运维自动化

推荐理由：企业IT团队终于有了衡量AI智能体真实能力的标尺——前沿模型都不到50分，说明自动化运维还有很大提升空间，做IT运维或AI落地的建议点开看看差距在哪。

原文

01:55

elvis@omarsar0

一项新研究提出了 AgingBench，一个纵向可靠性基准，用于评估 AI 智能体在部署数月后的性能退化。研究将智能体“衰老”分为四种机制，包括压缩衰老和干扰衰老，并测量退化形式和修复目标。即使模型权重不变，智能体的有效状态也会因历史压缩、记忆检索、事实更新等持续变化。该基准揭示了部署后智能体可靠性随时间下降的关键问题，为工程化维护提供了方向。

论文智能体可靠性基准测试 AgingBench 工程维护

推荐理由：做智能体部署和运维的团队终于有了衡量长期可靠性的工具——AgingBench 能告诉你智能体何时、如何退化以及该修哪里，建议做 agentic 工程的开发者点开看看。

原文

5月27日

20:57

berryxia@berryxia

腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试，专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像，覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败，最强模型在甲骨文上仅14%准确率，GPT-5和Gemini 2.5 Pro接近0。更反直觉的是，开启推理模式反而降低表现，模型实际依赖载体（如龟壳、青铜器）而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。

AI模型 OCR 古文字识别多模态模型基准测试文化遗产

推荐理由：这个基准测试戳破了多模态模型在古文字识别上的泡沫——它们根本没在认字，只是认载体。做文化遗产数字化或OCR研究的团队，看完会重新思考模型能力的边界。

原文

06:20

DeepLearning.AI@DeepLearningAI

卡内基梅隆大学和斯坦福大学的研究人员发现，当前AI智能体基准测试主要聚焦于软件开发任务，而美国劳动力市场的工作种类更为多样。研究将智能体测试中的任务映射到美国劳工统计局的职业数据，结果显示测试内容与大多数人的实际工作存在显著不匹配。这意味着现有基准可能高估了AI在某些领域的表现，同时低估了其在其他经济价值任务中的潜力。该研究呼吁开发更全面的评估方法，以真实反映AI智能体的经济影响。

论文智能体基准测试劳动力市场 CMU 斯坦福

推荐理由：这项研究戳破了AI基准测试的盲区——如果你在评估智能体工具或做AI产品，会发现现有测试可能误导了你的判断，建议点开看看如何修正评估标准。

原文

5月26日

12:21

arXiv cs.LG@Matt L. Wiemann, Lindsay M. Smith, Peter Melchior, Siddharth Mishra-Sharma, Andrew Gordon Wilson, Pavel Izmailov, Carolina Cuesta-Lázaro

精选72°

研究人员推出了DiscoverPhysics基准，通过让LLM代理在22个物理规则偏离现实的模拟世界中自主发现运动定律，来评估其科学推理能力。每个世界由N体模拟器按需生成，代理需设计多轮实验、观察原始轨迹数据，并提交自然语言解释和Python实现。测试发现，最强模型仅能通过一半世界，尤其在需要发现隐藏结构时失败；开源模型在实验设计和结论提取上显著落后于商业模型。该基准揭示了预测准确性与解释质量之间的差距，强调假设修正和实验设计对概念理解的重要性。

论文科学推理 LLM评估物理模拟实验设计基准测试

推荐理由：这个基准直击LLM科学推理的软肋——从数据中归纳规律而非回忆知识，做AI评估或科学模拟的团队值得关注，它暴露了当前模型在长程推理和实验设计上的真实短板。

原文

11:49

arXiv cs.AI@Junyuan Liu, Xinglei Wang, Zichao Zeng, Jiazhuang Feng, Quan Qin, Ilya Ilyankou, Guangsheng Dong, Tao Cheng

精选

城市表示学习将复杂城市环境编码为通用嵌入，但现有评估多局限于少数城市和任务，且随机划分导致空间泄漏，高估性能。CityRep 提出统一基准，包含空间单元无关的评估框架、基于区块的空间划分协议，以及覆盖 8 城市 8 任务的可扩展套件。评估 11 个模型发现，随机划分会扭曲性能排名，且模型表现因城市和任务差异显著。该基准提供数据集、评估管道和诊断工具，旨在推动城市表示学习的公平比较和泛化能力研究。

论文城市表示学习基准测试空间划分泛化评估多模态

推荐理由：城市表示学习领域终于有了一个靠谱的评估标准——CityRep 解决了空间泄漏和跨城市泛化评估的痛点，做城市计算或地理空间 AI 的研究者可以直接用这个基准来检验自己的模型，避免被随机划分的虚假高分误导。

原文

11:45

arXiv cs.AI@Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu

精选

Claw-Anything 是一个新基准，旨在评估大型语言模型代理作为始终在线个人助手的能力。现有系统仅能访问用户数字世界的狭窄部分，限制了上下文感知推理和有效协助。该基准通过三个维度扩展代理上下文：长期活动历史、相互依赖的后端服务以及跨多设备的 GUI 和 CLI 交互。实验显示，GPT-5.5 仅达到 34.5% 的 pass@1，远低于先前基准，突显了当前代理能力与始终在线个人助手需求之间的差距。同时，研究团队发布了自动化数据生成管道，可生成 2000 个训练环境，并将基础模型性能提升 23.7%。

论文智能体基准测试个人助手 GPT-5.5 上下文推理

推荐理由：这个基准测试揭示了当前 AI 代理在理解用户完整数字生活方面的巨大短板，做个人助手或智能体开发的团队值得关注——它直接指出了现有系统为何不够智能，并提供了改进方向。

原文

5月25日

21:41

Skywork@Skywork_ai

精选

Skywork 团队发布了名为 SkyClaw 的新模型技术细节和基准测试结果。SkyClaw 在多个基准上展现了竞争力，具体性能指标可在技术报告中查看。用户可以通过 Skywork 平台直接试用该模型。这一发布为 AI 模型社区提供了新的选择，尤其适合需要高性能推理的开发者。

AI模型 Skywork SkyClaw 基准测试推理模型开源/仓库

推荐理由：SkyClaw 的基准测试结果值得关注，做模型选型或推理优化的开发者可以直接查看技术细节并试用。

原文

11:13

arXiv cs.AI@Jianshu Zhang, Yijiang Li, Huifeixin Chen, Haoran Lu, Letian Xue, Bingyang Wang, Han Liu

精选

该研究通过SpaceNum框架系统评估了视觉语言模型（VLMs）在空间数值理解上的表现，包括动态探索和静态布局两种场景。实验发现，当前VLMs在将视觉空间结构与语言数值表示进行映射时，表现接近随机猜测，严重依赖浅层空间线索。模型难以建立稳定的坐标感知表示，也无法从视觉观察中抽象出结构化空间布局。即使加入显式推理或微调，提升也有限。这项研究揭示了VLMs在具身环境中输出数值（如动作幅度、空间坐标）时，可能并未真正理解其空间含义。

论文视觉语言模型空间推理数值理解具身智能基准测试

推荐理由：做具身智能或空间推理的开发者会发现，当前VLMs的数值输出可能只是“看起来对”，实际缺乏空间感知——这项研究用严谨实验戳破了这个盲区，值得关注。

原文

5月24日

10:38

Gary Marcus@GaryMarcus

精选

Gary Marcus 引用 scaling01 观点，认为 Mythos 在多项基准测试中优于 GPT-5.5，包括 SWE-bench Pro（77.8% vs 58.6%）、HLE（56.8% vs 41.4%）和网络安全测试。Mythos 在漏洞利用方面表现更强，能更高效地发现安全漏洞，但这也带来严重安全隐患。Marcus 警告，若 Mythos 完全发布，将对未充分防御的现实系统造成巨大混乱。目前最大的未知是 Mythos 在开放真实世界问题中的表现。

AI模型 Mythos GPT-5.5 基准测试安全威胁 AI模型

推荐理由：Mythos 在编程和网络安全基准上碾压 GPT-5.5，做 AI 安全或模型评估的团队需要关注其潜在威胁，建议提前加固防御。

原文

5月23日

18:47

Decoder@Jonathan Kemper

88°

阿里巴巴Qwen团队发布Qwen3.7-Max，这是一款专为长时间自主代理任务设计的专有模型。在基准测试中，它匹配了Claude Opus 4.6，并击败了DeepSeek V4 Pro和Kimi K2.6等中国竞争对手。团队还演示了该模型操控四足机器人。该模型曾自主运行35小时，优化其自有定制芯片的代码，展示了强大的长期任务执行能力。

AI模型 Qwen3.7-Max 自主代理芯片优化基准测试阿里巴巴

推荐理由：Qwen3.7-Max展示了AI在芯片设计等复杂工程任务中的自主长时运行能力，做硬件优化或AI代理开发的团队值得关注其实际表现。

原文