开源LLM对CTI报告的多标签ATT&CK技术分类评估

精选理由

这篇论文造了2076条人工标注的CTI数据，测了7个开源大模型，结果最好的F1才0.22，说明开源模型在安全情报分析上还不够用。

AI 摘要

该研究构建了包含2076条人工标注句子的数据集（1281条正样本、795条负样本），来自83份复杂的非结构化CTI报告，映射到114种ATT&CK技术。评估了7个开源LLM（参数规模8B至236B），最高micro-F1得分为0.22。参数大小与F1得分呈显著正相关，提示策略和温度设置无显著影响。结果表明当前开源LLM尚无法用于生产级ATT&CK分类。

AI 翻译 · 中文

arXiv cs.LGClassifying Cyber Threat Intelligence (CTI) using MITRE Adversarial Tactics, Techniques, and Common Knowledge (ATT&CK) is essential for proactive defense, but historically required extensive human effort. Pre-Large Langu…

阅读原文