15:13arXiv cs.LG@Jun Wen Leong研究发现LLM Agent在持续记忆中毒攻击下存在行为不变性:成功攻击必须调用memory_recall_fact后再调用email_send_email。仅凭该规则的检测AUC达0.9563,基于19个轨迹特征的随机森林分类器将AUC提升至0.9904(BCa 95% CI [0.987, 0.993])。跨9个模型(7B-120B参数)验证,6/9的留出测试AUC为1.000。该签名可泛化至GPT-4.1和GPT-4o等前沿模型,无需重新训练。通过工具调用日志即可区分记忆通道攻击与提示注入攻击。论文LLM Agent记忆中毒行为检测GPT-4.1GPT-4o推荐理由:这篇论文发现了一个简单规律就能检测AI Agent的记忆中毒攻击,准确率高达99%,还能区分不同攻击类型,非常实用。原文