Snyk VulnBench JS 1.0:LLM能否两次发现相同漏洞?

Snyk VulnBench JS 1.0: Can LLMs Find the Same Bugs Twice?

精选理由

这篇论文测试了LLM重复找漏洞的稳定性,发现Claude匹配结果很稳,但自己新发现的漏洞随机性高。建议和安全工具搭配用,别靠它单干。

AI 摘要

该论文通过300次重复漏洞扫描,测量了LLM在JavaScript代码安全审查中的可重复性。在250次模型运行中,80个唯一不匹配发现仅出现在一次重复中,22个出现在全部五次。相比之下,Claude匹配Snyk Code参考发现时更稳定:134个唯一匹配发现出现在全部五次。Snyk Code SAST是确定性的,能系统枚举重复数据流汇点。结果表明,将agentic LLM审查与确定性SAST结合比单独使用任一方法更好。

AI 翻译 · 中文

该论文通过300次重复漏洞扫描,测量了LLM在JavaScript代码安全审查中的可重复性。在250次模型运行中,80个唯一不匹配发现仅出现在一次重复中,22个出现在全部五次。相比之下,Claude匹配Snyk Code参考发现时更稳定:134个唯一匹配发现出现在全部五次。Snyk Code SAST是确定性的,能系统枚举重复数据流汇点。结果表明,将agentic LLM审查与确定性SAST结合比单独使用任一方法更好。

arXiv cs.AIWe ran 300 repeated vulnerability-finding scans to measure how repeatable agentic large language model (LLM) security review is on the same JavaScript code, prompt, and benchmark harness. The headline result is that LLM