全部 AI 动态 · AI 热点

6月26日

09:51

09:51

arXiv cs.AI@Ryan Fetterman

论文研究LLM微调安全分类器时产生的逃避漏洞，发现标准评估无法检测。以Foundation-Sec-8B-Instruct及其基础模型Llama-3.1-8B-Instruct为对象，在PowerShell分类任务上测试。通过因果干预定位分类电路继承自Llama的后期注意力路径，微调浓缩并语义专化此结构，但引入了对PowerShell别名替换（如iwr）、命令重建（Invoke-Expression）、字符串构造、执行间接和大小写变异等转换敏感的漏洞。三种逃避基准显示Foundation-Sec在iwr替换、Invoke-Expression重建和大小写变异的Invoke-Expression/IEX变体上失败，而Llama未受影响。

论文 Foundation-Sec-8B-Instruct Llama-3.1-8B-Instruct AI安全微调逃避攻击

推荐理由：这篇论文揭示了一个反直觉的发现：给模型做安全微调反而可能暗藏更多绕过后门。它用具体的PowerShell分类实验，告诉你继承的电路在微调后变得脆弱，适合关注AI安全或模型微调的朋友。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？