6月2日
12:05
12:05arXiv: DeepSeek@Nahyun Lee, Dongkeun Yoon, Guijin Son, Geewook Kim, Dayoon Ko, Jeonghun Park, Haneul Yoo, Jaewon Cho, Junghun Park, Changyoon Lee, Kyochul Jang, Jaeyeon Kim, Eunsu Kim, Woojin Cho, Seungone Kim
K-BrowseComp 是一个专门针对韩语环境的网页浏览智能体基准测试,包含 400 个问题。其中 300 个问题由韩语母语者手工构建和验证,前沿模型如 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 在该子集上仅达到 30.00-45.67% 的准确率,远低于 BrowseComp 的表现。韩国本土大模型表现更差,仅 0.00-10.33%。研究还构建了 100 个合成问题作为压力测试,最强模型仅达 26.00%。该基准填补了韩语智能体评估的空白,揭示了当前模型在非英语环境下的显著短板。

推荐理由:做多语言智能体或网页浏览任务的团队会立刻意识到差距——韩语场景下最强模型准确率不到一半,说明现有评估严重偏向英语。做韩语 NLP 或本地化产品的开发者可以直接用这个基准测试自己的模型。
5月13日
19:12
19:12arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song
精选75°
ExploitGym 是一个大规模、多样化的基准测试,用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例,涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示,前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例,即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险,为防御和攻击场景提供了重要测试平台。

推荐理由:安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景,做渗透测试或 AI 安全评估的团队可以直接拿来用。