11:35arXiv cs.LG@Ahmed Ryan, Saad Sakib Noor, Md Erfan, Shaswata Mitra, Sudip Mittal, Md Rayhanur Rahman该研究构建了包含2076条人工标注句子的数据集(1281条正样本、795条负样本),来自83份复杂的非结构化CTI报告,映射到114种ATT&CK技术。评估了7个开源LLM(参数规模8B至236B),最高micro-F1得分为0.22。参数大小与F1得分呈显著正相关,提示策略和温度设置无显著影响。结果表明当前开源LLM尚无法用于生产级ATT&CK分类。论文ATT&CKCTIMITRE开源模型多标签分类推荐理由:这篇论文造了2076条人工标注的CTI数据,测了7个开源大模型,结果最好的F1才0.22,说明开源模型在安全情报分析上还不够用。原文