全部 AI 动态 · AI 热点

6月30日

10:59

arXiv cs.LG@Matthias Blaschke, Daniel Kienzle, Zsuzsanna Koczor-Benda, Julian Lorenz, Rainer Lienhart, Fabian Pauly

新发布的Nanotechnology Molecular Optimization (NMO) Benchmark 替代传统药物发现中的代理指标，使用量子模拟评分。该基准对生成式分子模型提出严格结构约束和崎岖适应度景观。测试发现先进的分子优化方法在NMO任务上表现不及更简单的基线方法。研究团队开发了新基线方法，包含用于建模结构约束的新表示和消除制药数据集偏见的域无关预训练策略。该方法超越了最先进的物理性质结果，并揭示此前未知的结构基序。

AI模型 NMO Nanotechnology Molecular Optimization 分子优化纳米技术基准测试

推荐理由：科学家们搞了个新基准NMO，专门用来测试分子优化算法在纳米技术上的表现，直接用量子模拟打分，结果发现之前的先进方法还不如简单方法好用。

原文

10:40

arXiv: DeepSeek@Camilo Chacón Sartori

EMPATH是一个多语言审计-法官基准，用于评估情感支持聊天机器人的安全性。该基准使用审计模型模拟求助用户，基于140个种子指令和34个人设生成多轮对话，法官模型从19个指标（分属五个维度）评分。基准在墨西哥西班牙语和美国英语上构建，研究发现标准评分在19个指标中的10个上存在膨胀，校准后恢复了区分度。在三个前沿模型（含一个开源模型）上测试，聚合分数差异在0.74分内，但具体指标差异可达6分。运行间可靠性差，deepseek-v4-pro在温度0下每次运行生成不同对话。

AI模型 EMPATH 情感支持聊天机器人 AI安全多语言基准测试

推荐理由：这个新基准EMPATH专测情感支持聊天机器人的安全漏洞，用AI模拟求助者进行多语言多轮对话，发现主流模型评分虚高且不稳定，值得一做。

原文

09:21

arXiv: DeepSeek@Aditya Pratap Singh

该论文对10个OCR系统在天城体（印地语）上进行基准测试，包括EasyOCR、Qwen2.5-VL-3B、Qwen3-VL-8B、DeepSeek-OCR、Gemini 2.5 Flash、Claude Opus 4.7、GPT-5.5等。在清洁文本上所有系统chrF++在91-98之间，但在真实扫描图像中，9个系统性能大幅下降（EasyOCR从93.6跌至58.3）。Qwen3-VL-8B（75.2，可在单张24GB GPU运行）超过GPT-5.5（58.5）和olmOCR-7B（40.5），Gemini和Claude领先（86.3和82.2）。论文还提出基于ByT5的字节级后校正器可将廉价引擎chrF++提升1.2-1.5。

论文 OCR 天城体基准测试 Qwen3-VL-8B GPT-5.5

推荐理由：如果你对多语言OCR或印地语文本识别感兴趣，这篇论文揭示了主流模型在天城体上的真实差距，尤其是GPT-5.5表现不如开源Qwen3-VL-8B。

原文

6月26日

10:22

arXiv cs.LG@Lang Huang, Jinglue Xu, Luke Darlow

研究使用Ridge回归作为测试床，在8个标准基准上搜索上下文长度、局部归一化、正则化和数据增强的最优超参数。发现最佳回溯窗口长度与预测时序高度相关，且非单调，幂律指数从ETTm2的+0.46到Exchange和Traffic的-0.19。在大多数数据集-预测时距组合上，优化后的线性模型超越了先前的线性预测器，并超过Transformer、MLP和CNN基线在6/8个基准上的表现。优化超参数还可作为数据诊断工具，揭示大型模型隐式学习的结构。

论文 Ridge回归时间序列预测超参数优化基准测试线性模型

推荐理由：这篇论文发现，调好预处理参数，线性模型就能干翻Transformer等复杂模型，不用堆算力。

原文

09:48

arXiv cs.AI@Henry Shaowu Yuchi, Michal Kucer, Benjamin H. Sims, Selma Peterson, Emily Taylor

NuclearQAv2是一个专为核工程领域设计的基准测试，包含约1240个问答对，涵盖布尔、数值和文字三类问题。该基准采用混合流程，结合专家编写、现有数据集和LLM辅助生成。评估多种LLM发现，模型在事实性问答上表现良好，但在定量推理和概念理解上存在明显短板。NuclearQAv2提供了一种可扩展的方案，用于系统衡量大语言模型在技术领域的实际能力。

AI模型 NuclearQAv2 核工程基准测试 LLM评估定量推理

推荐理由：想看你用的LLM在核工程上有多靠谱？NuclearQAv2用1240道硬核题测出模型的定量推理短板，比通用基准更实在。

原文

6月25日

11:01

arXiv cs.AI@Yu-Yang Chen, Lan-Zhe Guo

TriViewBench 是一个基于合成3D场景的受控多视图视觉推理基准，包含1,923个场景和超过14K个问答对，分为4个复杂度级别和3个推理类别：局部决策、物体计数和全局恢复。评估18个开源和闭源MLLMs发现，所有模型能力排序一致（局部决策>物体计数>全局恢复），且随着复杂度增加性能单调下降：局部决策下降12.11%，物体计数下降59.14%，全局恢复骤降80.02%。错误分析表明，单视图任务中因遮挡导致欠计数，多视图任务因跨视角身份混淆导致过计数。Chain-of-Thought提示几乎无收益（Δ=-0.16%），表明瓶颈在于跨视角空间表示而非推理策略。

论文 TriViewBench MLLMs 多模态视觉推理基准测试

推荐理由：这篇论文用TriViewBench测了18个多模态模型，发现它们都在多视图推理上崩得厉害，CoT也救不了。想了解当前MLLM的结构推理极限，可以看看。

原文

6月23日

12:35

arXiv: OpenAI@Mostapha Benhenda

Finance Agent v2仅处理上市公司定期报告（SEC 10-K/10-Q），不适用于IPO尽职调查。新基准IPO Finance Agent扩展了任务领域和检索架构，采用上下文检索处理长文档，如SpaceX的S-1文件。该基准包含1000个IPO尽职调查问题，公开70个SpaceX问题，并引入自动生成评估标准管道。最佳模型Alibaba Qwen 3.7 Max准确率79.4%，成本$0.30/查询；最经济模型Xiaomi MiMo-2.5 Pro准确率76.8%，成本$0.05/查询，均超越Finance Agent v2领先者Google Gemini 3.5 Flash（57.9%，$2.51/查询）。

论文 IPO Finance Agent SpaceX Qwen 3.7 MiMo-2.5 Pro 基准测试

推荐理由：想测模型做IPO分析的功力？这篇论文搞了新基准，Qwen 3.7最强但贵，小米MiMo性价比炸裂，值得看。

原文

6月19日

11:31

arXiv cs.AI@Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

LiveCodeBench (LCB) 是广泛采用的代码生成基准，但仅限Python。新基准Multi-LCB将LCB任务转化为12种编程语言，包括Python、C++、Java等，保持原始污染控制和评估协议。研究者在Multi-LCB上评估了24个LLM，发现模型存在Python过拟合、语言特定污染和跨语言性能差异。Multi-LCB为多语言代码评估提供了严格的新基准，直接暴露了当前LLM在Python之外的短板。

AI模型 Multi-LCB LiveCodeBench 代码生成多语言基准测试

推荐理由：想测AI写代码的真本事？别只看Python了。Multi-LCB覆盖12种语言，一测就知道模型是不是只会Python，结果可能让你意外。

原文

10:07

arXiv cs.AI@Xinyi Zheng, Ling Shi, Tianlong Yu, Yongxin Zhao, Lorenz Goette, Kailong Wang

QMFOL是一个自动生成一元一阶逻辑推理任务的框架，可精确控制推理深度、宽度、标签类型和干扰项。基于该框架构建的QMFOLBench包含2880个实例、960种配置。在6个大型推理模型（LRMs）和2个LLM上的评估表明，逻辑复杂度增加时性能下降、计算开销上升。模型在True标签任务上表现优于False或Unknown任务，且对语义变化敏感。

论文 QMFOL LLM 推理基准测试

推荐理由：这篇论文提出了一个更好的推理测试方法QMFOL，能精细控制逻辑难度，用来测LLM推理能力更准。

原文

09:55

arXiv cs.LG@Tristan Tomilin, Mourad Boustani, Mickey Beurskens, Thiago D. Simão

CRAX基于MuJoCo XLA（MJX）物理引擎，利用JAX的向量化操作和硬件加速，在安全强化学习基准测试中实现约100倍于CPU版本的速度提升。该基准包含六套环境和三类智能体任务，每类任务设三个难度级别。研究者在六个主流安全RL方法上的评估表明，没有一种方法在所有任务中占优，揭示了性能与安全之间的权衡。实验还发现，跨难度级别的课程学习与安全迁移在困难设置下比直接训练效果更好。

AI模型 CRAX MuJoCo JAX 安全RL 基准测试

推荐理由：想快速测试安全RL算法？CRAX用JAX把基准跑快100倍，还自带六个环境和三级难度，帮你一眼看出哪个方法在安全与性能上最均衡。

原文

09:36

arXiv: OpenAI@Ahmad Salimi, Wentao Ma, Yuzhi Tang, Dongming Shen, Mu Li, Alex Smola

IHBench评估语音助手在10个企业领域中断后的恢复能力，包含6种中断类型。27个音频语言模型配置来自OpenAI、Google和开源社区。闭源模型在任务完成度上显著优于开源模型，长对话中性能下降慢约3.3倍，且无音频-文本模态差距。人类研究验证了LLM评判的可靠性，交叉分析显示恢复质量是独立能力维度。

论文 IHBench OpenAI Google 语音助手基准测试

推荐理由：想测语音助手被用户打断后能不能接好活？IHBench专门看这个，比谁恢复得自然、不错步骤。闭源模型比开源稳太多了。

原文

6月18日

09:37

arXiv: Google DeepMind@Tim Rädsch, Yuki M Asano, Hilde Kuehne, Stefan Bauer, Priyank Jaini, Robert Geirhos, Carsten T. Lüth

该研究系统审计了Physics-IQ视频物理理解基准，发现其提示质量和真实标注存在缺陷。作者提出三项改进措施，包括优化提示与真值、引入样本级评分系统，并应用六种图像到视频生成模型验证。新版Physics-IQ Verified改进了57.6%的样本和34.8%的提示，模型排名变化中度显著（Kendall's τ=0.46）。

论文 Physics-IQ 视频生成模型基准测试物理理解 DeepMind

推荐理由：DeepMind发布了Physics-IQ验证版，专门评测视频模型对物理世界的理解。现有基准有缺陷，他们修正后让模型排名更可信了。

原文

6月17日

10:43

arXiv cs.AI@Md Tawkat Islam Khondaker, Raymond Li, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Issam H. Laradji

DRFLOW 是一个用于评估智能体从异构来源预测个性化工作流的新型基准，包含 100 个任务、5 个领域、1,246 个参考步骤，并基于 3,900 多个来源构建。它定义了 7 项诊断指标，涵盖事实基础、步骤恢复、结构排序、条件解析和个性化。作者还提出了 DRFLOW-Agent (DRFA) 作为参考代理，其在平均 F1 分数上比强基线代理提升最多 10.02%，但仍有较大改进空间。

AI模型 DRFLOW 工作流预测基准测试智能体企业任务

推荐理由：想测测你家智能体能不能给出真正可执行的步骤？DRFLOW 用 100 个企业任务逼真考核，DRFA 也才比普通基线高 10%，挑战不小。

原文

10:30

arXiv: DeepSeek@Jasmine Brazilek, Oliver Tulio, Joel Christoph, Miles Tidmarsh, Carol Kline, Arturs Kanepajs

新基准TAC（Travel Agent Compassion）测试AI代理在12个旅行预订场景中是否避免动物剥削选项，涵盖6类动物剥削，扩展至48个样本以控制价格、评分和位置干扰。7个前沿模型得分均低于64%的随机水平，最佳Claude Opus 4.7为53%。在系统提示中加入一句福利意识语句后，Claude和GPT-5.5提升47-63个百分点，GPT-5.2提升26个百分点，DeepSeek和Gemini提升不到12个百分点。对前两名模型的288条基底记录审计未发现评估意识，表明低分并非因识别出测试。

论文 TAC 动物福利 AI Agent 基准测试 Claude Opus 4.7

推荐理由：动物福利问题有了AI专属的代理基准TAC，实测Claude Opus 4.7刚过一半，加个提示词能暴增60%，暴露了模型在实际行动中的盲区。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:40

arXiv cs.AI@Alexandra Neagu, Jeffrey T. H. Wong, Marcus Messer, Rhodri Nelson, Peter B. Johnson

该论文引入了一个评估管道，包含两个指标——聊天机器人脚手架和学生吸收率，并在9个数据集（共9490个对话）上应用，涵盖AI导师基准测试和现实部署。分析发现，基准测试假设高脚手架、高学生吸收率环境，但现实中的学生整体吸收率较低，经常绕过聊天机器人的教学框架。论文认为，绕过脚手架不一定有害，反而常突显了聊天机器人的教学框架与学生目标之间的不匹配。未来基准测试应评估聊天机器人如何导航多样化的学习情境和学生驱动的交互模式。

论文 LLM辅导员脚手架学生吸收率基准测试教育AI

推荐理由：这篇论文用9490个对话数据证明，AI辅导系统在测试中的表现和实际使用差很多，学生根本不吃那套引导。做教育AI的值得看看。

原文

11:15

arXiv cs.AI@Markus Bujotzek, Dimitrios Bounias, Stefan Denner, Ralf Floca, Maximilian Fischer, Peter Neher, Klaus Maier-Hein

该基准套件整合了来自不同来源的真实噪声医学图像分割数据集，并设计了多种客户端-噪声场景（如轮廓不一致、缺失结构、标签混淆）。它提供了针对标签噪声的评估指标，支持系统性的联邦噪声标签学习（FNLL）评估。代码已在GitHub上开源（MIC-DKFZ/FedSegNoiseBench），为公平比较和未来方法开发奠定基础。

论文 Federated Learning Medical Image Segmentation Noisy Label Learning 基准测试

推荐理由：医学图像分割里标签噪声很头疼，这个基准套件专门测联邦学习下的真实场景，帮你挑最靠谱的去噪方法。

原文

10:57

arXiv cs.LG@Yahya Aalaila, Sumantrak Mukherjee, Gerrit Großmann, Sebastian Vollmer

HawkesNest是一个基于多元Hawkes骨干的生成器对齐基准，定义了空间-时间纠缠、背景异质性、跨类型交互和域拓扑四个复杂度轴。每个轴关联一个从潜在数据生成机制中计算出的确定性索引。在固定全局速率、稳定性和模拟预算下改变这些轴，可对STPP模型进行诊断压力测试。实验验证了索引的单调性和近似正交性。Hawkes系列基线在联合异质性与纠缠复杂度下退化，AutoSTPP在空间-时间纠缠单独增加时表现脆弱。

论文 HawkesNest STPP 时空点过程基准测试复杂度分析

推荐理由：想检验你的时空点过程模型？HawkesNest提供了四个可控复杂度轴，能精准发现模型在空间-时间纠缠等场景下的弱点。

原文

10:26

arXiv cs.LG@Marios Koulakis, Constantin Seibold

论文提出了一个基准测试框架manifold-microscope，用于研究数据流形的几何特性。它扩展了dSprites和COIL-20数据集，引入额外的变换维度和密集轴对齐采样，并搭配有限差分估计器。该框架能以接近真实值的精度恢复曲率、reach和体积，而通用估计器在这些场景中不可靠。两个应用研究展示了该框架的用途：评估Genovese et al.和Fefferman et al.理论边界的缩放行为，以及跟踪β-VAE的逐层几何变化。

论文 dSprites COIL-20 β-VAE 数据流形几何估计基准测试

推荐理由：这篇论文给了一个实用的基准测试工具，帮你检验数据流形几何估计方法的准确性，还能用来验证理论假设。

原文

09:50

arXiv cs.LG@Zongfang Liu, Jinghui Zhang, Zijian Ma, Guangyi Chen, Xin Yuan

该研究提出MoE专家一次性剪枝的统一公式，将现有启发式标准归为路由频率、门控权重、激活强度三类因素。基于此给出选择原则：任务无关剪枝应优先使用基于激活强度、无门控的标准。新提出的MAN和MSAN标准在4个MoE模型、16个基准上取得任务无关设置平均排名前两位。平均性能比最强基线提升最多8.8个百分点。

论文 MoE 专家剪枝语言模型基准测试模型压缩

推荐理由：这篇论文把MoE剪枝的各种评分方法统一了，还提出MAN和MSAN两个新标准，在多个模型和基准上表现更稳定，适合做模型压缩的人参考。

原文

6月15日

11:11

arXiv cs.AI@Guanming Liu, Yuqi Ren, Hansu Gu, Peng Zhang, Weihang Wang, Jiahao Liu, Ning Gu, Tun Lu

StreamMemBench是一个针对智能体记忆的流式评估基准，基于EgoLife自我中心流构建两步任务序列。初始任务测试证据使用，后续任务测试反馈与交互经验的复用。基准包含证据回忆、初始证据使用、反馈整合和后续复用四项指标。实验在8个记忆系统、2个基础模型上显示，当前系统在证据使用和反馈转化为可靠行为方面常失败。

论文 StreamMemBench EgoLife 智能体记忆评估基准测试

推荐理由：测测你的智能体记性

原文

6月12日

13:48

arXiv cs.LG@Tianyi Ma, Yijun Ma, Zehong Wang, Weixiang Sun, Ziming Li, Connor R. Schmidt, Chuxu Zhang, Matthew J. Webber, Yanfang Ye

超分子化学研究非共价主客体组装，但设计过程耗时且需要大量干实验验证。尽管LLM在分子结合任务上表现优异，但缺乏系统评估其超分子化学推理能力的基准。为此，研究团队与领域专家合作发布了SupraBench，包含结合亲和力预测、最佳结合物选择、溶剂识别和主客体描述四个核心任务，以及一个基于视觉的分子识别辅助任务。同时发布了SupraPMC语料库（1600万token），用于领域适应预训练。实验表明，LLM在所有任务上仍有显著提升空间，领域适应预训练在分布内回归任务上表现良好，但会牺牲严格的格式输出。

论文基准测试超分子化学 LLM评估分子结合开源/仓库

推荐理由：做计算化学或药物设计的团队终于有了评估LLM超分子推理能力的标准测试——SupraBench覆盖了结合亲和力预测等关键任务，想验证LLM在化学领域实用性的研究者可以直接用。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:25

arXiv cs.AI@Minghao Luo, Liang Chen

搜索增强型大语言模型（LLM）在实时检索网页内容进行消费推荐时，面临被虚假评论和促销页面误导的风险。研究者提出了FORGE基准，通过将真实产品信息替换为虚假信息，测试12种商业和开源LLM的脆弱性。结果显示，单个污染页面即可导致最高27%的虚假推荐率，而替换前3个检索结果后，虚假推荐率升至73.8%。推理能力不仅无法缓解此问题，反而会生成虚假的社会证明来合理化错误推荐。研究还评估了三种防御策略，发现怀疑提示可能加剧漏洞，而共识过滤则可能误伤合法产品。

论文搜索增强LLM 虚假推荐安全漏洞基准测试防御策略

推荐理由：做搜索增强推荐系统的开发者需要警惕——你的模型可能被一篇虚假评论带偏，FORGE基准提供了测试和防御思路，值得点开看看。

原文

10:15

arXiv cs.AI@Harihara Muralidharan, Reema Baskar, Soo Hee Lee, Tim Proctor, Kenny Workman

研究人员推出了EpiBench，一个用于短周期表观基因组学分析的可验证基准测试。该基准包含106个评估任务，覆盖CUT&Tag/CUT&RUN、ATAC-seq、ChIP-seq和DNA甲基化等流程。在16个模型-工具组合的5088条有效轨迹中，没有系统通过大部分尝试：GPT-5.5/Pi以45.0%的通过率领先，GPT-5.5/OpenAI Codex以39.9%紧随其后。性能因检测类型而异，许多失败运行仍包含部分正确答案，但任务需要更深入的、检测特定的科学判断时，智能体往往失败。这表明当前AI在需要专业领域知识的复杂分析中仍有明显短板。

论文基准测试表观基因组学 AI智能体 GPT-5.5 科学判断

推荐理由：做基因组学分析的团队终于有了一个可复现的AI能力评估标准——EpiBench揭示了当前最强模型在专业科学判断上的天花板，做生物信息学工具开发或AI+生命科学研究的建议点开看看差距在哪。

原文

09:48

arXiv: DeepSeek@Pierre Beckmann, Marco Valentino, Andre Freitas

精选

SciR 是一个新的科学推理基准，专门评估大语言模型在科学场景下的演绎、归纳和因果推理能力。它通过从形式化对象（如演绎树、归纳规则假设、因果图）生成任务，确保答案可验证，再渲染成多文档科学文本。该基准独立控制两个难度轴：信息提取难度和推理本身难度，从而揭示模型在不同维度上的表现差异。测试六个模型后发现，两个难度轴都会降低模型性能，且效果叠加，即使是神经符号管道也受渲染影响。推理模型如DeepSeek-R1主要在推理轴上优于非推理指令模型。

论文科学推理 LLM评估基准测试演绎推理因果推理

推荐理由：做LLM评估和科学推理研究的团队终于有了一个能独立控制提取与推理难度的基准，可以精准诊断模型短板。想了解自家模型在科学推理上到底弱在哪，建议直接看这篇。

原文

09:45

arXiv: DeepSeek@Gabriel Diaz-Ireland, Diego Prieto-Herráez, Mario García Peces, Javier Velázquez, Devika Jain

GeoNatureAgent Benchmark 是首个针对环境分析智能体的基准测试，要求智能体通过结构化工具调用真实地理空间 API 完成任务。该基准包含 93 个任务，覆盖 18 个类别，如市政分析、多轮对话、空间推理、错误处理等，基于西班牙和葡萄牙的三个环境指标和 16 个工具进行评估。测试了 7 个 LLM（Claude Sonnet 4、DeepSeek V3.2 等），Claude Sonnet 4 以 60.8% 准确率领先，DeepSeek V3.2 以 56.3% 紧随其后，且成本仅为 Claude 的 1/11。比较类任务（如接近值比较）所有模型均为 0%，暴露了系统推理局限。该基准比通用 GIS 基准更具区分度，准确率低 25-35 个百分点。基准、测试工具和 API 均已开源。

论文智能体地理空间分析基准测试环境科学开源/仓库

推荐理由：做环境数据分析或地理空间智能体的开发者，这个基准能帮你快速验证模型在真实 API 调用场景下的能力，DeepSeek V3.2 的性价比值得一试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:35

arXiv cs.AI@Selen Erkan, Bastian Boll, Kristian Kersting, Björn Deiseroth, Letitia Parcalabescu

精选

论文指出传统基准测试常因格式要求而低估基础模型的知识水平，因为基础模型缺乏后训练带来的格式遵循能力。作者提出软提示调优（soft-prompt tuning），仅优化10个软提示向量（约7B模型参数的0.0006%），在80步（约640样本）内即可让模型适应基准格式，从而准确反映其真实知识。实验覆盖7个模型和7个数据集，结果显示该方法显著优于零样本和少样本提示，甚至能提升后训练模型的格式合规性。软提示调优后的基础模型性能可更可靠地预测后训练模型的排名，为早期预训练策略选择提供低成本代理。

论文软提示调优 LLM评估基准测试格式遵循预训练策略

推荐理由：做LLM评估的团队终于有了一个公平且高效的基准测试方案——只需微调极少量参数就能剥离格式干扰，直接测出模型真实知识水平。做预训练或模型选型的开发者值得一试，能省下大量后训练成本。

原文

11:56

arXiv cs.LG@Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu, Yuchuan Tian, Wei He, Hang Zhou, Jianyuan Guo, Hailin Hu, Lin Ma, Chao Xu, Guohao Dai, Lixue Xia, Yunchao Wei, Yunhe Wang, Yu Wang

精选

通用智能体（如OpenClaw）在编程任务上的表现难以用现有SWE-bench准确衡量，因为其不满足Docker工作区、补丁和预测合约要求。为此，研究者推出了Claw-SWE-Bench，一个多语言基准测试和适配器协议，能在固定提示、预算、工作区等公平条件下比较不同智能体框架。该基准包含350个GitHub问题实例，覆盖8种语言和43个仓库，并提供了80实例的轻量版Lite用于快速验证。实验显示，OpenClaw在直接适配器下仅得19.1% Pass@1，而完整适配器可达73.4%，表明适配器设计对编程任务至关重要。该基准将框架和成本作为评估核心维度，数据已开源。

论文基准测试编程智能体 OpenClaw SWE-bench 适配器

推荐理由：做智能体编程评估的团队终于有了公平比较的基准——Claw-SWE-Bench解决了不同框架无法直接对比的痛点，建议做Agent评估的开发者直接用它来测试自己的适配器设计。

原文

10:53

arXiv cs.AI@Sukmin Seo, Geewook Kim

精选

该研究指出，在小时级长视频中，自然语言时间定位（Temporal Grounding）的核心瓶颈是搜索而非识别。现有视频大模型（Video-LLMs）在短片上表现良好，但在小时级视频中因无法高效搜索相关区域而崩溃。作者发布了首个开放域小时级时间定位基准 ExtremeWhenBench（194个视频，平均75.7分钟，最长9小时，2273条查询），发现所有开源 Video-LLM 均不如简单的帧级检索基线。失败分析显示85%的错误源于搜索失败，而“检索-定位”混合方法比单一 Video-LLM 提升6.7倍，类似于开放域问答中的“检索-阅读”范式。

论文时间定位长视频理解检索-定位 Video-LLM 基准测试

推荐理由：做长视频理解或视频检索的开发者会发现，当前 Video-LLM 在小时级视频上几乎不可用，而简单的检索基线反而更有效——这个反直觉结论值得点开看看，或许能帮你重新设计系统架构。

原文

10:10

arXiv cs.LG@Zhen Zhang, Alessandro Alla, George Em Karniadakis

精选

该研究对偏微分方程约束逆问题中的伴随优化方法和物理信息神经网络进行了公平对比。通过统一抽象公式、匹配优化器、参数化及精度，在多个基准测试（如非稳态Burgers方程、噪声Darcy渗透率反演、三维Allen-Cahn反应识别、非稳态Navier-Stokes粘度识别）中评估两者性能。结果表明，未知参数的表示形式决定方法优劣：网格基场适合离散伴随，而神经表示是PINN的天然优势。对于时间依赖问题，伴随方法受轨迹存储和微分成本制约，而PINN能以更低成本获得满意重建。PINN热启动伴随策略能以大幅降低的成本恢复伴随级精度。

论文伴随方法物理信息神经网络 PDE约束逆问题计算力学基准测试

推荐理由：做计算力学和逆问题研究的团队，这篇论文帮你省去选择方法的纠结——它给出了伴随法和PINN在不同场景下的明确优劣边界，看完可以直接指导你的实验设计。

原文

6月10日

11:59

arXiv cs.AI@George Perrett, Javae Elliott, Jennifer Hill, Marc Scott

精选

一篇新论文指出，当前LLM基准测试存在局限性，常基于训练数据中的内容评估性能，且未充分衡量可靠性和错误严重程度。研究者设计了一个需要编写代码完成数据分析任务的新基准，对比前沿LLM与人类专家的表现。结果显示，人类专家在多项指标上平均表现更好，且性能波动更小。该研究为LLM并非始终达到人类专家水平提供了证据，并强调了在基准评估中测量方差和错误严重程度的重要性。

论文 LLM 基准测试人类专家可靠性代码生成

推荐理由：这篇论文戳破了LLM“达到人类专家水平”的常见叙事，做AI评估或依赖LLM做高精度任务的团队值得细读，看完会对基准测试的可靠性有更深思考。

原文

11:31

arXiv cs.AI@Haeji Jung, Hila Gonen

精选72°

研究者推出 PhantomBench，这是首个专门评估语言模型对“不存在概念”识别能力的基准，包含超过6万个从真实领域衍生的虚构术语和实体。测试了21个不同规模和类型的模型，发现平均幻觉率高达86.7%，即使是前沿模型在面对预设存在的输入时也几乎无法拒绝回答。该基准可作为研究模型在罕见概念上幻觉行为的代理工具，并提供了可扩展的构建流程。这项工作揭示了模型知识边界认知的严重缺陷，对高风险应用场景构成警示。

论文幻觉基准测试模型评估知识边界 AI安全

推荐理由：做AI安全或模型评估的团队，这个基准直接戳中了当前模型最致命的弱点——它们连“不存在的东西”都分不清，建议用PhantomBench测测自家模型。

原文

10:32

arXiv cs.LG@Zach Moczkodan, Hany Ragab

该研究重新评估了 Transformer 等时序架构在网络入侵检测中的真实效果，发现其性能提升主要来自 padding 方式而非架构本身。在无 padding 的真实序列上，Transformer 的 macro-F1 达 0.89，但零填充掩码评估下骤降 0.24，而 LSTM、GRU 和 1D-CNN 保持稳定。在无泄漏分组评估中，随机森林最稳健，Transformer 的误报率从 0.04% 升至 2.7%，增加 67 倍。研究呼吁采用无泄漏分割、明确 padding 披露和序列感知基准测试作为标准实践。

论文入侵检测 Transformer 时序评估 CIC-IDS2017 基准测试

推荐理由：这篇论文戳破了 Transformer 在入侵检测中“近乎完美”的假象——做网络安全 AI 研究的团队，尤其是依赖 CIC-IDS2017 基准的，建议仔细看 padding 和分割协议的影响，否则你的模型评估可能虚高 0.24 macro-F1。

原文

10:30

arXiv: OpenAI@Andrew Bo Liu, Samira Nedungadi, Bryce Cai, Alex Kleinman, Harmon Bhasin, Seth Donoughe

72°

ABC-Bench（Agentic Bio-Capabilities Benchmark）是一个用于评估大型语言模型智能体在生物安全相关任务上能力的基准测试套件。它包含三类任务：编写代码操作液体处理机器人、设计用于体外组装的DNA片段、以及规避DNA合成筛选。所有测试的LLM智能体在三项任务上均超过了人类专家基线水平，但在需要新颖生物信息推理的任务上表现较弱。湿实验验证显示，OpenAI的o4-mini-high模型生成的脚本成功在OpenTrons机器人上组装出预期序列的DNA。该基准旨在量化AI在生物研究中的双刃剑效应——既推动科学进步，也带来新的生物安全风险。

论文生物安全 LLM智能体基准测试 DNA组装双用途技术

推荐理由：这是首个系统评估LLM智能体在生物安全关键任务上能力的基准，做AI安全或生物计算的研究者值得关注——它揭示了当前模型在复制已知协议时很强，但在创新推理上仍有短板。

原文

6月9日

13:05

arXiv cs.AI@Avijit Ghosh, Anka Reuel, Jenny Chim, Wm. Matthew Kennedy, Srishti Yadav, Jennifer Mickel, Yanan Long, Andrew Tran, Anastassia Kornilova, Damian Stachura, Kevin Klyman, Felix Friedrich, Jeba Sania, Max Lamparth, Jan Batzner, Anoop Mishra, Eliya Habba, Yixiong Hao, Nathan Heath, Shalaleh Rismani, Usman Gohar, Andrea Loehr, David Manheim, Ruchira Dhar, Sree Harsha Nelaturu, Aarush Sinha, Leshem Choshen, Drishti Sharma, Ishan Khire, Amit Saha, Subramanyam Sahoo, Michael Hardy, Michael Alexander Riegler, Kabir Manghnani, Michelle Lin, Yanan Jiang, Yilin Huang, Asaf Yehudai, Jessica Ji, Aris Hofmann, Mubashara Akhtar, Nuno Moniz, Yacine Jernite, Stella Biderman, Zeerak Talat, Sanmi Koyejo, Mykel Kochenderfer, Irene Solaiman

AI评估结果虽大量产生，但报告格式不统一，导致读者难以跨来源比较、识别遗漏或追溯证据。现有方案仅覆盖评估生命周期的片段，缺乏统一记录，且未区分不同利益相关者的需求。研究者提出了EvalCards，一个可操作的报告层，整合基准元数据、评估运行数据和模型元数据。他们从52篇论文和10次访谈中推导出报告模式，实现了四个解释信号（可复现性、文档完整性、来源与风险、分数可比性），并针对研究与非研究受众设计了阅读模式。该工具已在5816个模型、635个基准和101843个结果上部署，揭示了当前报告实践中的系统性缺陷。

论文评估报告可解释性基准测试模型元数据 EvalCards

推荐理由：AI评估报告混乱是行业痛点，做模型评测、写技术文档或选型决策的团队，可以直接用EvalCards统一报告格式，减少误解和重复劳动。

原文

12:35

arXiv cs.LG@Lawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

精选72°

苹果智能体需要理解用户身份、历史与偏好，但现有基准缺乏个性化。研究团队推出iOSWorld，首个基于原生iOS模拟器的交互式基准，包含26个新应用、133个任务，覆盖单应用、多应用及记忆与个性化三类。最佳模型（GPT-4o）整体准确率52%，多应用任务仅37%；加入XML辅助后大模型提升26个百分点，小模型无增益。该基准已开源，旨在推动真正个性化的手机智能体发展。

论文智能体基准测试 iOS 个性化开源/仓库

推荐理由：手机智能体开发者终于有了能测试个性化能力的基准——iOSWorld要求模型理解用户身份与历史，而非仅执行孤立指令，做移动端AI Agent的团队值得关注。

原文

11:48

arXiv cs.AI@Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong

精选

多模态大模型在物理世界中的空间推理能力至关重要，但现有基准多依赖静态问答或特定模拟器，无法评估真实交互场景。研究者提出SpatialWorld，一个统一基准，整合8种异构仿真后端，包含760个人工标注任务，覆盖家务、旅行、社交协作等领域。智能体需在仅视觉部分可观测条件下主动收集证据，并通过统一文本接口做出决策。评估15个先进智能体发现，最强模型GPT-5平均任务成功率仅17.4%，开源模型Qwen-3.5为14.1%，表明主动探索和长程规划仍是瓶颈。

论文空间推理多模态大模型基准测试智能体仿真环境

推荐理由：做多模态智能体或空间推理研究的团队，这个基准直接暴露了当前模型在真实交互任务上的短板——GPT-5都只有17.4%成功率，值得用来检验自家模型。

原文

11:04