越狱 · AI 话题观测

§ 01综述

AI 越狱（jailbreak）是指通过精心构造的提示词或输入，绕过大型语言模型（LLM）的安全对齐机制，使其生成原本被禁止的输出。2025年以来，越狱攻击已从实验室概念演变为现实威胁，社交媒体平台和智能体系统成为重灾区。

越狱近期进展

Meta AI 客服漏洞致 2 万 Instagram 账号被盗：攻击者利用越狱技术绕过 Meta AI 客服的安全检测，诱导其泄露用户凭据，导致大规模账号失窃。本次事件首次将越狱的后果从“生成不当内容”升级为直接经济损失。原文标题

国家互联网应急中心：部分智能体技能包存在越狱和挖矿风险：官方监测发现，某些第三方智能体技能包内置了越狱指令，可被远程触发以执行挖矿程序，对用户设备和数据安全构成直接威胁。原文标题

Stateful Online Monitoring 捕获分布式智能体攻击：研究者提出一种有状态在线监控方法，能够实时识别多智能体协作下的越狱攻击，实验表明该方法对复杂提示注入有较高检测率。原文标题

Anthropic Circuits 更新：越狱、密集特征与可解释性入门：Anthropic 的机械可解释性研究团队在最新月度报告中分析了越狱提示的内部机制，揭示了模型如何将有害指令编码为密集特征，为防御提供了理论依据。原文标题

越狱攻击正从单轮 prompt 注入向多轮、多智能体协作进化，其影响范围也扩展至账号安全和物联网设备。防御方面，需要在模型对齐、运行时监控和技能包审核三个层面同步加固。此外，监管机构已开始介入，国家互联网应急中心的公开警告预示着针对越狱技术的法律和标准将加速落地。

§ 02相关报道04 条在档

§ 03邻近话题