09:51arXiv cs.LG@Zhenyu YuInstantForget是一种新的后门遗忘方法,无需更新模型参数即可在推理时移除恶意触发行为。在CIFAR-10 ResNet-18上,它针对BadNets、WaNet、Blended和SIG四种触发方式,将平均攻击成功率(ASR)降至0.071。该方法通过马氏距离标记异常特征并重置为中性表示,达到0.981的检测AUROC,并成功迁移至六种主干网络。论文还揭示了投影假设在WaNet等触发下的失效(ASR分别达0.683、0.888和0.941),并用logit-trilplet间隙预测失败。论文InstantForget后门攻击模型安全CIFAR-10推理时推荐理由:这篇论文提出InstantForget,不用重新训练就能清除模型后门,在CIFAR-10上把攻击成功率压到7%,还搞了个检测机制AUROC 98%,挺实用的。原文
11:16arXiv cs.AI@Youssef Allouah, Mahdi Haghifam, Sanmi Koyejo, Reza Shokri精选本文通过最小最大博弈框架研究模型蒸馏攻击中的部署权衡:模型输出越有用,越容易被模仿。作者提出自适应评估规则,学生可重加权高价值样本;同时设计教师端防御模板,抑制最易被蒸馏的输出。基于示例价值的廉价代理,提出Product-of-Experts (PoE) 防御,仅需前向传播即可结合教师与代理学生。实验表明,自适应评估揭示被动与自适应攻击的巨大差距:在GSM8K和MATH上,自适应学生恢复的能力远超被动评估。PoE在成本远低于现有防御的情况下,鲁棒性差距显著缩小,且保留更高质量的推理轨迹。代码已开源。论文蒸馏攻击模型安全自适应攻击防御机制博弈论推荐理由:这篇论文戳破了蒸馏防御的假象——被动评估下的鲁棒性在自适应攻击面前不堪一击。做模型安全或部署的团队,建议用文中的自适应评估框架重新审视你的防御方案。原文
09:46arXiv cs.AI@Samuele Pasini, Jinhan Kim, Paolo Tonella精选研究者提出MIST方法,通过分析深度神经网络在微调过程中内部表征的谱变化来检测后门攻击。该方法将良性模型更新建模为预激活谱的回归问题,通过检测谱偏差识别恶意更新。在四个数据集和八种后门攻击的实验中,MIST在单次更新后即达到最先进的检测准确率,且无需了解中毒数据或触发器。该方法在多步良性演化下仍保持有效,性能退化可控。这表明谱演化信号为检测恶意模型更新提供了稳定且假设较少的方案。论文后门检测谱回归分析模型安全微调DNN推荐理由:安全团队和AI部署者终于有了一个无需先验知识就能检测模型后门的方法——MIST通过分析微调时的谱变化,在单次更新后即可识别恶意植入,比现有方法更早更准。做模型安全审计的开发者值得关注。原文
11:17arXiv cs.LG@Saisab Sadhu, Pratinav Seth, Vinay Kumar Sankarapu精选73°现有机器遗忘评估仅在全精度模型上进行,但实际部署的语言模型都会经过量化。研究发现,4-bit量化可以逆转梯度下降法的遗忘效果,而能抵抗量化的方法又几乎不改变模型。MANSU通过因果电路归因定位最小遗忘子图,结合零空间投影和参数幅度下限,首次实现了遗忘效果在量化后不反弹。该方法还提出了电路归因散度(CAD)作为新的验证指标,能区分结构擦除与行为抑制。实验表明,MANSU在多个模型和基准上同时满足遗忘、保留、抗量化和结构擦除四个目标。论文机器遗忘量化因果归因模型安全MANSU推荐理由:量化会悄悄恢复你辛苦抹掉的知识——MANSU解决了这个部署中的致命漏洞,做模型安全和对齐的团队值得关注这个新方法。原文