论文精选

WMAttack:世界模型智能体的自动化对抗攻击搜索框架

WMAttack: Automated Attack Search for Adversarial Evaluation of World-Model Agents

精选理由

世界模型智能体的安全性评估一直缺乏自动化工具,做对抗攻击或鲁棒性研究的团队可以直接用这个框架替代手动调参,省时且结果更可靠。

AI 摘要

世界模型作为决策智能体日益普及,但其对抗鲁棒性因缺乏自动化评估方法而研究不足。现有手动调参的攻击要么高估鲁棒性,要么因穷举搜索成本过高而不可行。WMAttack 将鲁棒性评估建模为有限预算下的攻击配置搜索,包括攻击类型、扰动预算、优化步数等。其核心创新是自校正攻击搜索(SCAS)和表示引导攻击检索(RGAR),分别通过反馈优化攻击分布和利用历史配置加速新环境搜索。在 Atari 和 DeepMind Control 任务上,WMAttack 发现了比基线更强的攻击,归一化奖励下降显著提升。

AI 翻译 · 中文

世界模型作为决策智能体日益普及,但其对抗鲁棒性因缺乏自动化评估方法而研究不足。现有手动调参的攻击要么高估鲁棒性,要么因穷举搜索成本过高而不可行。WMAttack 将鲁棒性评估建模为有限预算下的攻击配置搜索,包括攻击类型、扰动预算、优化步数等。其核心创新是自校正攻击搜索(SCAS)和表示引导攻击检索(RGAR),分别通过反馈优化攻击分布和利用历史配置加速新环境搜索。在 Atari 和 DeepMind Control 任务上,WMAttack 发现了比基线更强的攻击,归一化奖励下降显著提升。

arXiv: Google DeepMindDespite the growing use of world models as decision-making agents, their adversarial robustness remains underexplored due to the lack of dedicated automated evaluation methods. A key obstacle is that attack evaluation mu