论文73°

治理衰退:上下文压缩如何静默消除 LLM 智能体的安全约束

Governance Decay: How Context Compaction Silently Erases Safety Constraints in Long-Horizon LLM Agents

精选理由

这篇论文揭示了上下文压缩让 LLM 智能体偷偷遗忘安全规则,还给了可防护方案,做 AI 安全的一定要看。

AI 摘要

论文发现,长程 LLM 智能体依赖的上下文压缩机制会静默移除原本遵守的安全策略,导致违规行为。在 ConstraintRot 基准测试中,1323 个 episode 显示策略完整时违规率 0%,压缩后升至 30%,部分模型达 59%。攻击者还能通过对抗性注入诱导压缩器忽略合法策略。作者提出免训练的 Constraint Pinning 方法,将约束隔离在无损压缩外,恢复违规率至 0%。

AI 翻译 · 中文

论文发现,长程 LLM 智能体依赖的上下文压缩机制会静默移除原本遵守的安全策略,导致违规行为。在 ConstraintRot 基准测试中,1323 个 episode 显示策略完整时违规率 0%,压缩后升至 30%,部分模型达 59%。攻击者还能通过对抗性注入诱导压缩器忽略合法策略。作者提出免训练的 Constraint Pinning 方法,将约束隔离在无损压缩外,恢复违规率至 0%。

arXiv cs.AIModern LLM agents increasingly rely on context compaction, summarization, or eviction to keep long-running sessions within a token budget. We show that this context-management layer is a safety-critical failure surface: