继承电路与习得语义:微调在标准评估中隐藏的逃避漏洞

Inherited Circuits, Learned Semantics: How Fine-Tuning Creates Evasion Vulnerabilities Invisible to Standard Evaluation

精选理由

这篇论文揭示了一个反直觉的发现:给模型做安全微调反而可能暗藏更多绕过后门。它用具体的PowerShell分类实验,告诉你继承的电路在微调后变得脆弱,适合关注AI安全或模型微调的朋友。

AI 摘要

论文研究LLM微调安全分类器时产生的逃避漏洞,发现标准评估无法检测。以Foundation-Sec-8B-Instruct及其基础模型Llama-3.1-8B-Instruct为对象,在PowerShell分类任务上测试。通过因果干预定位分类电路继承自Llama的后期注意力路径,微调浓缩并语义专化此结构,但引入了对PowerShell别名替换(如iwr)、命令重建(Invoke-Expression)、字符串构造、执行间接和大小写变异等转换敏感的漏洞。三种逃避基准显示Foundation-Sec在iwr替换、Invoke-Expression重建和大小写变异的Invoke-Expression/IEX变体上失败,而Llama未受影响。

AI 翻译 · 中文

论文研究LLM微调安全分类器时产生的逃避漏洞,发现标准评估无法检测。以Foundation-Sec-8B-Instruct及其基础模型Llama-3.1-8B-Instruct为对象,在PowerShell分类任务上测试。通过因果干预定位分类电路继承自Llama的后期注意力路径,微调浓缩并语义专化此结构,但引入了对PowerShell别名替换(如iwr)、命令重建(Invoke-Expression)、字符串构造、执行间接和大小写变异等转换敏感的漏洞。三种逃避基准显示Foundation-Sec在iwr替换、Invoke-Expression重建和大小写变异的Invoke-Expression/IEX变体上失败,而Llama未受影响。

arXiv cs.AILLMs fine-tuned for security classification are usually evaluated on held-out examples from the same distribution as their training data. We show that this can miss vulnerabilities introduced by fine-tuning itself: model