Snyk VulnBench JS 1.0：LLM能否两次发现相同漏洞？

精选理由

这篇论文测试了LLM重复找漏洞的稳定性，发现Claude匹配结果很稳，但自己新发现的漏洞随机性高。建议和安全工具搭配用，别靠它单干。

AI 摘要

该论文通过300次重复漏洞扫描，测量了LLM在JavaScript代码安全审查中的可重复性。在250次模型运行中，80个唯一不匹配发现仅出现在一次重复中，22个出现在全部五次。相比之下，Claude匹配Snyk Code参考发现时更稳定：134个唯一匹配发现出现在全部五次。Snyk Code SAST是确定性的，能系统枚举重复数据流汇点。结果表明，将agentic LLM审查与确定性SAST结合比单独使用任一方法更好。

AI 翻译 · 中文

arXiv cs.AIWe ran 300 repeated vulnerability-finding scans to measure how repeatable agentic large language model (LLM) security review is on the same JavaScript code, prompt, and benchmark harness. The headline result is that LLM …

阅读原文