11:01arXiv cs.AI@Shiyang Chen73°论文发现,长程 LLM 智能体依赖的上下文压缩机制会静默移除原本遵守的安全策略,导致违规行为。在 ConstraintRot 基准测试中,1323 个 episode 显示策略完整时违规率 0%,压缩后升至 30%,部分模型达 59%。攻击者还能通过对抗性注入诱导压缩器忽略合法策略。作者提出免训练的 Constraint Pinning 方法,将约束隔离在无损压缩外,恢复违规率至 0%。论文LLM agentsConstraintRotGovernance DecayAI安全智能体推荐理由:这篇论文揭示了上下文压缩让 LLM 智能体偷偷遗忘安全规则,还给了可防护方案,做 AI 安全的一定要看。原文