全部 AI 动态 · AI 热点

5月13日

19:12

arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song

精选75°

ExploitGym 是一个大规模、多样化的基准测试，用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例，涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示，前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例，即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险，为防御和攻击场景提供了重要测试平台。

论文安全漏洞 AI智能体基准测试漏洞利用 Claude Mythos Preview GPT-5.5

推荐理由：安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景，做渗透测试或 AI 安全评估的团队可以直接拿来用。

原文

5月12日

19:11

arXiv: DeepSeek@Zeynel A. Uluşan, Burak S. Akbudak, Can S. Erer, Gözde Gül Şahin

近期神经定理证明器使用基于可验证奖励的强化学习（RLVR），但面临稀疏奖励问题：困难问题中部分进展无法获得信号。为此，研究者提出学习奖励模型以评估证明质量，但比较不同奖励模型通常需要昂贵的RL训练消融实验。FormalRewardBench是首个专门评估Lean 4形式化定理证明中奖励模型的基准，包含250个偏好对，每个正确证明通过5种专家设计的错误注入策略生成错误变体。评估包括前沿LLM（如Claude Opus 4.5）、判别型LLM（如CompassJudger-1-14B）、通用LLM（如Qwen2.5-72B-Instruct）以及专用定理证明模型（如DeepSeek-Prover-V2-7B）。结果显示前沿LLM表现最佳（59.8%），而专用定理证明器表现最差（24.4%），表明定理证明能力并未迁移到证明评估任务。

论文定理证明奖励模型 Lean 4 基准测试强化学习

推荐理由：该基准填补了形式化定理证明中奖励模型评估工具的空白，揭示专用定理证明模型在评估任务上的不足，为改进RL训练信号提供了明确方向。

原文

19:11

arXiv cs.AI@Haozhe Zhang, Kaichen Liu, Miaomiao Chen, Lei Li, Shaojie Yang, Cheng Peng, Hanjie Chen

研究者推出BenchCAD，一个统一的基准测试，用于评估多模态大语言模型在工业CAD代码生成上的能力。该基准包含17,900个可执行的CadQuery程序，涵盖106个工业零件系列，如锥齿轮、压缩弹簧和麻花钻。通过视觉问答、图像到代码生成等任务，BenchCAD测试模型在感知、参数抽象和可执行程序合成方面的综合能力。实验显示，当前前沿模型能恢复大致几何形状，但在精确参数和工业设计操作上常失败，如用简单拉伸替代扫掠、放样等关键操作。

论文代码生成多模态模型 CAD/设计基准测试工业自动化

推荐理由：该基准揭示了现有模型在工业级CAD生成上的显著不足，为模型优化和工业自动化提供了明确的评估标准。

原文

19:11

arXiv cs.AI@Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez Ahmed

CADBench 是一个统一的多模态基准测试，用于评估从图像或3D观测中恢复可编辑CAD程序的能力。该基准包含18,000个样本，涵盖六个基准家族（基于DeepCAD、Fusion 360等）、五种输入模态（如网格、渲染图）和六项指标（几何保真度、可执行性等）。评估了11个CAD专用及通用视觉语言系统，生成超过140万CAD程序。结果显示，在理想输入下专用模型优于通用模型，但模型在几何复杂度和模态变化下表现脆弱，且指标排名不一致。该基准旨在成为可编辑3D重建和多模态CAD理解的诊断工具。

论文 CAD程序生成多模态基准测试 3D重建工程自动化

推荐理由：为学界和工业界提供了一个标准化的评估框架，有助于澄清现有CAD程序生成方法的优劣及失败模式，尤其对工程设计自动化领域具有直接参考价值。

原文

17:56

AK@_akhaliq

Soohak是由数学家精心策划的基准测试，旨在评估大型语言模型（LLM）在科研级别数学问题上的能力。该基准涵盖高等数学的多个领域，包括代数、几何、分析等，要求模型不仅具备计算能力，还需展现推理和创新解题能力。这为评估LLM在专业数学研究中的应用潜力提供了更严格的测试标准。

论文推理模型 LLM 数学评测基准测试 Soohak

推荐理由：Soohak填补了现有数学评测基准在科研深度上的空白，为AI在数学领域的前沿应用提供了更精确的评估工具，有助于推动模型在数学推理和问题解决上的进步。

原文

5月11日

22:15

阿里云 Alibaba Cloud@alibaba_cloud

阿里云宣布其AI视频生成模型HappyHorse在Model Studio上线，声称在基准测试中排名第一，具备高速生成和原生音视频同步能力。该模型强调无需排队等待，相比其他模型渲染更高效。这标志着阿里云在视频生成领域的重大进展，可能推动AI视频生成在实时应用中的普及。

AI产品视频生成阿里云 HappyHorse 基准测试音视频同步

推荐理由： HappyHorse的发布表明阿里云在视频生成赛道上的快速跟进，其高速和音视频同步特性对直播、短视频等场景有实际价值，但需关注其与Sora等产品的实际性能对比及商用门槛。

原文

19:03

19:03arXiv: DeepSeek（学术论文）

意大利ENGINEERING公司发布了EngGPT2MoE-16B-A3B语言模型，采用16B参数MoE架构（3B活跃参数）。在国际基准测试（ARC-Challenge、GSM8K、MMLU等）中，该模型全面优于FastwebMIIA-7B、Minerva-7B等意大利本土模型。与同规模MoE模型相比，EngGPT2在多数指标上超过DeepSeek-MoE-16B-Chat和Moonlight-16B-A3B，但落后于GPT-OSS-20B。在意大利语数据集ITALIC上，模型表现仅次于Velvet-14B。研究认为该模型是意大利原生大语言模型的重要进步。

论文大语言模型 MoE 意大利语 EngGPT2 基准测试

推荐理由：该评测展示了意大利本土LLM的最新进展，对关注多语言模型（尤其是意大利语）的研究者和开发者具有参考价值，也反映了MoE架构在中等参数规模下的实际性能水平。

原文

11:18

Ethan Mollick@emollick

作者指出，尽管AI基准测试存在诸多问题，但相比机器人领域，追踪AI进展仍容易得多。机器人领域的演示视频（如机器人赛跑或洗衣服）缺乏独立、标准化的基准测试，难以量化其真实能力。作者质疑是否存在类似ARC-AGI那样的独立机器人基准测试，并暗示这可能导致对机器人进展的评估更加主观。

行业基准测试机器人评估体系 AI进展透明度

推荐理由：该评论揭示了AI与机器人领域评估体系的不对称性，提醒从业者关注机器人基准测试的缺失及其对行业透明度的影响。

原文