继承电路与习得语义：微调在标准评估中隐藏的逃避漏洞

精选理由

这篇论文揭示了一个反直觉的发现：给模型做安全微调反而可能暗藏更多绕过后门。它用具体的PowerShell分类实验，告诉你继承的电路在微调后变得脆弱，适合关注AI安全或模型微调的朋友。

AI 摘要

论文研究LLM微调安全分类器时产生的逃避漏洞，发现标准评估无法检测。以Foundation-Sec-8B-Instruct及其基础模型Llama-3.1-8B-Instruct为对象，在PowerShell分类任务上测试。通过因果干预定位分类电路继承自Llama的后期注意力路径，微调浓缩并语义专化此结构，但引入了对PowerShell别名替换（如iwr）、命令重建（Invoke-Expression）、字符串构造、执行间接和大小写变异等转换敏感的漏洞。三种逃避基准显示Foundation-Sec在iwr替换、Invoke-Expression重建和大小写变异的Invoke-Expression/IEX变体上失败，而Llama未受影响。

AI 翻译 · 中文

arXiv cs.AILLMs fine-tuned for security classification are usually evaluated on held-out examples from the same distribution as their training data. We show that this can miss vulnerabilities introduced by fine-tuning itself: model…

阅读原文