safety·general

safety

别名
首次出现
2026-05-22
最近出现
2026-06-09
累计提及
132
§ 01综述

AI安全(safety)已成为模型部署的核心议题,近期进展聚焦于内建安全机制、专用安全模型和系统性风险评估。OpenAI在GPT-4o系统卡中详细披露了模型在拒绝敏感请求、减少有害输出等方面的缓解措施,体现了从训练后对齐到预部署测试的全链路安全思考。同时,NVIDIA发布的Nemotron 3.5 Content Safety提供可定制的多模态安全分类器,支持文本和图像内容审核,为应用层提供灵活防护。更具前瞻性的是,Attention-Guided Safety Filter提出在视觉-语言模型(VLA)内建安全模块,无需额外训练即可干预生成过程,标志着安全从外部过滤转向模型内在约束。当前焦点在于平衡性能与安全性:模型越强大,安全机制设计的复杂度越高,且需应对不断演变的误用手段。未来观察点包括:安全模型的泛化能力、多模态场景下的风险评估标准化,以及内建安全机制如何降低部署成本。

§ 02相关报道10 条在档
  1. 01
    Attention-Guided Safety Filter:VLA模型内建安全机制,无需额外训练
    arXiv cs.LG
  2. 02
    NVIDIA 发布 Nemotron 3.5 Content Safety:可定制多模态安全模型
    Hugging Face: Blog
  3. 03
    GPT-4o 系统卡发布
    OpenAI Blog
  4. 04
    人类偏好微调GPT-2:复制学习与价值对齐
    OpenAI Blog
  5. 05
    OpenAI发布安全健身房,约束RL智能体安全
    OpenAI Blog
  6. 06
    理解LLM的能力、局限与社会影响
    OpenAI Blog
  7. 07
    OpenAI分享语言模型安全与误用经验
    OpenAI Blog
  8. 08
    DALL·E 2新增1000用户每周
    OpenAI Blog
  9. 09
    DALL·E 2预训练安全措施
    OpenAI Blog
  10. 10
    减少偏见提升安全性:DALL·E 2新法
    OpenAI Blog
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/safety