全部 AI 动态 · AI 热点

arXiv cs.AI@Davis Brown, Samarth Bhargav, Arav Santhanam, Kasper Hong, Ivan Zhang, Matan Shtepel, Steffi Chern, Alexander Robey, Eric Wong, Hamed Hassani

76°

论文指出，当前安全监控器仅对单个智能体上下文评分，无法检测跨多个账户的分布式攻击。研究者首次构建了分布式智能体攻击，将有害目标分散到多个子智能体中，成功规避了标准监控器。为防御此类攻击，他们开发了在线状态监控器，通过实时聚类收集跨多个智能体转录的弱可疑信号，仅在必要时升级到语言模型进行跨账户标记。在模拟数据中心流量测试中，该监控器比标准监控器提前30%捕获分布式攻击，且对99%的用户流量几乎无额外延迟。防御优势在大规模良性流量下有所减弱，但意外发现也能捕获标准越狱攻击。

论文分布式攻击安全监控智能体在线聚类越狱检测

推荐理由：这篇论文解决了AI安全监控的结构性盲区——分布式攻击，做安全防御的团队值得关注，它展示了如何通过跨用户推理来提前捕获恶意行为。

原文

5月26日

12:12

arXiv: OpenAI@Aoxi Liu, Yupeng Chen, James Oldfield, Guanzhe Hong, Junchi Yu, Baoyuan Wu, Philip Torr, Adel Bibi

精选

扩散大语言模型（D-LLMs）通过多步去噪生成文本，其中间隐藏状态包含安全相关信息，但安全监控研究尚属空白。本文发现，中间隐藏状态反复接近分类器决策边界的“安全犹豫”信号能有效预测轻量级探针的失败。基于此，提出$D^2$-Monitor，采用轻量探针持续监控并估计犹豫程度，当犹豫超过阈值时激活更强但更重的探针，实现测试时资源动态分配。在WildguardMix、ToxicChat、OpenAI-Moderation三个数据集上，对四种D-LLMs评估，$D^2$-Monitor以≤0.85M参数取得最优性能，并在效果与效率间达到最佳平衡。

论文扩散大语言模型安全监控动态路由轻量探针犹豫感知

推荐理由：做LLM安全对齐的团队终于有了针对扩散模型的专用监控方案——$D^2$-Monitor用轻量探针+动态路由解决了资源效率问题，做模型部署和红队测试的可以直接参考论文中的实现思路。

原文