09:51arXiv cs.AI@Ryan Fetterman论文研究LLM微调安全分类器时产生的逃避漏洞,发现标准评估无法检测。以Foundation-Sec-8B-Instruct及其基础模型Llama-3.1-8B-Instruct为对象,在PowerShell分类任务上测试。通过因果干预定位分类电路继承自Llama的后期注意力路径,微调浓缩并语义专化此结构,但引入了对PowerShell别名替换(如iwr)、命令重建(Invoke-Expression)、字符串构造、执行间接和大小写变异等转换敏感的漏洞。三种逃避基准显示Foundation-Sec在iwr替换、Invoke-Expression重建和大小写变异的Invoke-Expression/IEX变体上失败,而Llama未受影响。论文Foundation-Sec-8B-InstructLlama-3.1-8B-InstructAI安全微调逃避攻击推荐理由:这篇论文揭示了一个反直觉的发现:给模型做安全微调反而可能暗藏更多绕过后门。它用具体的PowerShell分类实验,告诉你继承的电路在微调后变得脆弱,适合关注AI安全或模型微调的朋友。原文