论文精选

VESTA:LLM 智能体全自动场景生成与安全评估框架

VESTA: A Fully Automated Scenario Generation and Safety Evaluation Framework for LLM Agents

精选理由

做 LLM 智能体安全评估的团队终于有了自动化工具——VESTA 能生成上千个真实任务场景,直接测出模型执行中的安全漏洞。建议关注智能体安全的开发者点开看看,结果可能会让你重新审视现有模型的风险。

AI 摘要

VESTA 是一个全自动化的 LLM 智能体安全评估框架,能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示,难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试,发现平均安全风险率高达 47.1%,部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。

AI 翻译 · 中文

VESTA 是一个全自动化的 LLM 智能体安全评估框架,能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示,难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试,发现平均安全风险率高达 47.1%,部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。

arXiv cs.AILarge language models (LLMs) are increasingly evolving from simple text-based interaction systems into LLM agents that can maintain memory, use tools, access external environments, and execute tasks. As their capabilitie