5月13日
19:12
19:12arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song
精选75°
ExploitGym 是一个大规模、多样化的基准测试,用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例,涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示,前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例,即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险,为防御和攻击场景提供了重要测试平台。

推荐理由:安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景,做渗透测试或 AI 安全评估的团队可以直接拿来用。
5月12日
5月11日
22:15
22:15阿里云 Alibaba Cloud@alibaba_cloud
阿里云宣布其AI视频生成模型HappyHorse在Model Studio上线,声称在基准测试中排名第一,具备高速生成和原生音视频同步能力。该模型强调无需排队等待,相比其他模型渲染更高效。这标志着阿里云在视频生成领域的重大进展,可能推动AI视频生成在实时应用中的普及。

推荐理由: HappyHorse的发布表明阿里云在视频生成赛道上的快速跟进,其高速和音视频同步特性对直播、短视频等场景有实际价值,但需关注其与Sora等产品的实际性能对比及商用门槛。