治理衰退：上下文压缩如何静默消除 LLM 智能体的安全约束

精选理由

这篇论文揭示了上下文压缩让 LLM 智能体偷偷遗忘安全规则，还给了可防护方案，做 AI 安全的一定要看。

AI 摘要

论文发现，长程 LLM 智能体依赖的上下文压缩机制会静默移除原本遵守的安全策略，导致违规行为。在 ConstraintRot 基准测试中，1323 个 episode 显示策略完整时违规率 0%，压缩后升至 30%，部分模型达 59%。攻击者还能通过对抗性注入诱导压缩器忽略合法策略。作者提出免训练的 Constraint Pinning 方法，将约束隔离在无损压缩外，恢复违规率至 0%。

AI 翻译 · 中文

arXiv cs.AIModern LLM agents increasingly rely on context compaction, summarization, or eviction to keep long-running sessions within a token budget. We show that this context-management layer is a safety-critical failure surface: …

阅读原文