精选理由
这篇论文造了2076条人工标注的CTI数据,测了7个开源大模型,结果最好的F1才0.22,说明开源模型在安全情报分析上还不够用。
该研究构建了包含2076条人工标注句子的数据集(1281条正样本、795条负样本),来自83份复杂的非结构化CTI报告,映射到114种ATT&CK技术。评估了7个开源LLM(参数规模8B至236B),最高micro-F1得分为0.22。参数大小与F1得分呈显著正相关,提示策略和温度设置无显著影响。结果表明当前开源LLM尚无法用于生产级ATT&CK分类。
AI 翻译 · 中文
该研究构建了包含2076条人工标注句子的数据集(1281条正样本、795条负样本),来自83份复杂的非结构化CTI报告,映射到114种ATT&CK技术。评估了7个开源LLM(参数规模8B至236B),最高micro-F1得分为0.22。参数大小与F1得分呈显著正相关,提示策略和温度设置无显著影响。结果表明当前开源LLM尚无法用于生产级ATT&CK分类。
Classifying Cyber Threat Intelligence (CTI) using MITRE Adversarial Tactics, Techniques, and Common Knowledge (ATT&CK) is essential for proactive defense, but historically required extensive human effort. Pre-Large Langu…