WMAttack：世界模型智能体的自动化对抗攻击搜索框架

精选理由

世界模型智能体的安全性评估一直缺乏自动化工具，做对抗攻击或鲁棒性研究的团队可以直接用这个框架替代手动调参，省时且结果更可靠。

AI 摘要

世界模型作为决策智能体日益普及，但其对抗鲁棒性因缺乏自动化评估方法而研究不足。现有手动调参的攻击要么高估鲁棒性，要么因穷举搜索成本过高而不可行。WMAttack 将鲁棒性评估建模为有限预算下的攻击配置搜索，包括攻击类型、扰动预算、优化步数等。其核心创新是自校正攻击搜索（SCAS）和表示引导攻击检索（RGAR），分别通过反馈优化攻击分布和利用历史配置加速新环境搜索。在 Atari 和 DeepMind Control 任务上，WMAttack 发现了比基线更强的攻击，归一化奖励下降显著提升。

AI 翻译 · 中文

arXiv: Google DeepMindDespite the growing use of world models as decision-making agents, their adversarial robustness remains underexplored due to the lack of dedicated automated evaluation methods. A key obstacle is that attack evaluation mu…

阅读原文