安全研究员测试AI漏洞挑战：GPT-5.5成功率最高，DeepSeek V4 Pro成本最低

精选理由

安全团队和AI开发者可以直观看到不同模型在真实漏洞利用任务中的性价比——GPT-5.5最可靠但贵，DeepSeek V4 Pro成本极低但成功率有限，做自动化安全测试的团队值得参考这个对比。

AI 摘要

安全研究员Kasra Rahjerdi搭建了一个故意留有漏洞的图书评论APK，测试多款AI大语言模型的安全推理能力。模型需解包APK并识别暴露的Firebase凭据以绕过API访问数据库。每个模型预算10美元，限时2小时，总花费1500美元。结果显示，GPT-5.5在10次运行中成功7次，每次成功成本9.46美元；DeepSeek V4 Pro成功3次，但每次成功成本仅0.62美元，约为GPT-5.5的十五分之一。Gemini多次在任务早期拒绝继续，而Claude Sonnet 4.6和Opus 4.8各成功2次。该测试揭示了不同模型在安全漏洞利用任务中的性能与成本差异，对批量运行安全工具的团队具有现实意义。

AI 翻译 · 中文

IT之家IT之家 6 月 4 日消息，安全研究员 Kasra Rahjerdi 昨日（6 月 3 日）发布报告，搭建了一个故意留有漏洞的图书评论 APK，测试多款 AI 大语言模型的安全推理能力。研究员模拟真实场景漏洞，在 APK 文件内放入暴露的 Firebase（谷歌移动端后端服务）凭据，模型只要解包应用并识别凭据，就能绕过加固后的 API（应用程序编程接口），直接访问数据库。故意留漏洞的图书评论应用截图每个模型单次预算为 10 美…

阅读原文