AI安全(safety)已成为模型部署的核心议题,近期进展聚焦于内建安全机制、专用安全模型和系统性风险评估。OpenAI在GPT-4o系统卡中详细披露了模型在拒绝敏感请求、减少有害输出等方面的缓解措施,体现了从训练后对齐到预部署测试的全链路安全思考。同时,NVIDIA发布的Nemotron 3.5 Content Safety提供可定制的多模态安全分类器,支持文本和图像内容审核,为应用层提供灵活防护。更具前瞻性的是,Attention-Guided Safety Filter提出在视觉-语言模型(VLA)内建安全模块,无需额外训练即可干预生成过程,标志着安全从外部过滤转向模型内在约束。当前焦点在于平衡性能与安全性:模型越强大,安全机制设计的复杂度越高,且需应对不断演变的误用手段。未来观察点包括:安全模型的泛化能力、多模态场景下的风险评估标准化,以及内建安全机制如何降低部署成本。
№safety·general
safety
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-09
- 累计提及
- 132
§ 01综述
§ 02相关报道10 条在档
§ 03邻近话题