安全评估·general

安全评估

别名
首次出现
2026-05-22
最近出现
2026-06-16
累计提及
8
§ 01综述

安全评估是确保人工智能系统在部署前或部署后不会产生危害的关键流程,近年来随着大语言模型和自动驾驶等应用的爆发,安全评估方法也迎来了从静态基准测试向动态仿真与对抗性测试的转变。

安全评估近期进展

  • OpenAI 推出 Deployment Simulation 方法:通过模拟真实对话来预测模型部署后的行为,使安全评估能更贴近实际使用场景,避免静态测试的局限性。原文标题
  • Waymo 推出 ReD 虚拟驾驶员:研究人类在紧急碰撞中的应对方式,为自动驾驶系统的安全评估提供更逼真的碰撞场景数据,提升评估的真实性。原文标题
  • VESTA:全自动场景生成与安全评估框架:针对 LLM 智能体,自动生成多样化测试场景,覆盖长尾风险,解决了人工构建场景效率低、覆盖率不足的问题。原文标题
  • STRIDE-AI:面向生成式AI的威胁建模框架:将传统威胁建模方法论应用于生成式AI,系统化识别从输入到输出的安全隐患,为安全评估提供结构化分析工具。原文标题
  • 当前焦点与观察点

    当前安全评估领域存在一个核心争议:评估指标的有效性。例如 RefusalBench 指出,仅依赖模型拒绝有害请求的比率来排名安全性可能产生误导——拒绝率高并不等于实际风险低,因为模型可能绕过拒绝机制或在不同语境下表现不一致。此外,自动化生成场景(如 VESTA)虽然提高了效率,但如何保证生成场景的真实性和多样性仍是个挑战。另有研究提倡用可预测失败训练 ML 模型,即在模型中内置已知的失败模式以强化安全评估,但这种方法可能被对手利用。总体而言,安全评估正从“单一指标”走向“多维度、动态化”,但标准化和可靠性仍是急需突破的瓶颈。

    § 02相关报道07 条在档
    1. 01
      OpenAI 推出 Deployment Simulation 方法,用真实对话预测模型部署行为
      OpenAI Blog
    2. 02
      Waymo 推出 ReD 虚拟驾驶员,研究人类如何应对紧急碰撞
      IT之家
    3. 03
      VESTA:LLM 智能体全自动场景生成与安全评估框架
      arXiv cs.AI
    4. 04
      RefusalBench:拒绝率误导前沿LLM在生物研究提示上的安全排名
      arXiv: Anthropic
    5. 05
      STRIDE-AI:面向生成式AI安全评估的威胁建模框架
      arXiv cs.AI
    6. 06
      用可预测失败训练ML模型:安全评估新方法
      arXiv cs.LG
    7. 07
      Google Research 多项AI突破:科研伙伴、推理Agent与合成数据
      Google Research: Blog
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/%E5%AE%89%E5%85%A8%E8%AF%84%E4%BC%B0