混合CNN-CodeBERT框架实现三类凭据泄露检测，F1达0.90

精选理由

安全团队终于有了能区分真实凭据和占位符的检测工具，误报率大幅降低。做DevSecOps的开发者可以直接参考这个框架来优化自己的凭据扫描流程。

AI 摘要

针对公开代码仓库中凭据泄露检测高误报率问题，研究者提出一个三类分类框架，将占位符/弱凭据作为独立类别，结合CodeBERT语义理解与字符级模式识别。在包含10种编程语言的9426个样本数据集上，模型在真实凭据泄露检测上达到93%召回率和89%精确率，同时将高严重性告警减少33%。相比纯字符级方法，占位符/弱凭据检测F1从54%提升至81%，且跨语言泛化能力强，9/10语言在留一语言评估中F1超过0.80。

AI 翻译 · 中文

arXiv cs.AICredential leakage in public source code repositories poses a critical security threat, with over 23.8 million secrets exposed in 2024 alone. Existing detection tools suffer from high false-positive rates because rigid p…

阅读原文