安全评估 · AI 话题观测

§ 01综述

安全评估是确保人工智能系统在部署前或部署后不会产生危害的关键流程，近年来随着大语言模型和自动驾驶等应用的爆发，安全评估方法也迎来了从静态基准测试向动态仿真与对抗性测试的转变。

安全评估近期进展

OpenAI 推出 Deployment Simulation 方法：通过模拟真实对话来预测模型部署后的行为，使安全评估能更贴近实际使用场景，避免静态测试的局限性。原文标题

Waymo 推出 ReD 虚拟驾驶员：研究人类在紧急碰撞中的应对方式，为自动驾驶系统的安全评估提供更逼真的碰撞场景数据，提升评估的真实性。原文标题

VESTA：全自动场景生成与安全评估框架：针对 LLM 智能体，自动生成多样化测试场景，覆盖长尾风险，解决了人工构建场景效率低、覆盖率不足的问题。原文标题

STRIDE-AI：面向生成式AI的威胁建模框架：将传统威胁建模方法论应用于生成式AI，系统化识别从输入到输出的安全隐患，为安全评估提供结构化分析工具。原文标题

当前焦点与观察点

当前安全评估领域存在一个核心争议：评估指标的有效性。例如 RefusalBench 指出，仅依赖模型拒绝有害请求的比率来排名安全性可能产生误导——拒绝率高并不等于实际风险低，因为模型可能绕过拒绝机制或在不同语境下表现不一致。此外，自动化生成场景（如 VESTA）虽然提高了效率，但如何保证生成场景的真实性和多样性仍是个挑战。另有研究提倡用可预测失败训练 ML 模型，即在模型中内置已知的失败模式以强化安全评估，但这种方法可能被对手利用。总体而言，安全评估正从“单一指标”走向“多维度、动态化”，但标准化和可靠性仍是急需突破的瓶颈。

§ 02相关报道07 条在档

§ 03邻近话题