11:39arXiv cs.AI@Liran Tal, Johannes Kloos, Arsenii Rudich, Stephen Thoemmes, Manoj Nair该论文通过300次重复漏洞扫描,测量了LLM在JavaScript代码安全审查中的可重复性。在250次模型运行中,80个唯一不匹配发现仅出现在一次重复中,22个出现在全部五次。相比之下,Claude匹配Snyk Code参考发现时更稳定:134个唯一匹配发现出现在全部五次。Snyk Code SAST是确定性的,能系统枚举重复数据流汇点。结果表明,将agentic LLM审查与确定性SAST结合比单独使用任一方法更好。论文SnykVulnBenchClaudeLLMAI安全代码审计推荐理由:这篇论文测试了LLM重复找漏洞的稳定性,发现Claude匹配结果很稳,但自己新发现的漏洞随机性高。建议和安全工具搭配用,别靠它单干。原文