llm安全·general

LLM安全

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
12
§ 01综述

LLM安全是指确保大型语言模型在生成内容时避免产生有害、偏见或误导性输出的技术和管理措施,是当前AI治理的核心议题。随着模型能力的提升和应用场景的拓展,LLM安全面临从对抗性攻击到对齐篡改等多元挑战,相关研究和实践正快速演进。

LLM安全近期进展

  • 低资源语言攻击与多轮对话风险:研究发现,使用低资源非洲语言进行的多轮对话可越狱主流LLM,成功率最高达83.6%,凸显了语言覆盖缺失带来的安全漏洞。同时,HarmAmp与TrajSafe框架揭示了多轮对话中危害的放大效应,提示安全评估需考虑对话上下文。 400次实验揭示LLM攻击一致性:Gemini 2.5 Flash-Lite成功率85%领先 HarmAmp & TrajSafe:应对LLM多轮对话中的危害放大 低资源非洲语言多轮对话可越狱主流LLM,成功率最高83.6%
  • 防御新技术与评估工具涌现:Acoda提出对抗性代码混淆框架,旨在防御LLM对代码的分析。STRIDE-AI为生成式AI的威胁建模提供了结构化框架。NVIDIA garak教程则面向开发者构建防御性红队工作流,推动实战化安全测试。 Acoda:对抗性代码混淆框架防御LLM分析 STRIDE-AI:面向生成式AI安全评估的威胁建模框架 NVIDIA garak 教程:构建完整防御性 LLM 红队工作流
  • 对齐与安全措施的不一致问题:RLHF对齐过程可能被恶意利用,放大模型偏见。同时,安全裁判在翻译后改变判决,暴露出多语言安全评测的一致性危机。Fable 5明确调整策略,将拒绝行为透明化,引发对安全可见性的讨论。 RLHF 被利用:对齐篡改如何放大 LLM 的偏见 LLM 安全裁判在翻译后改变判决,论文揭示一致性危机 Fable 5 调整前沿 LLM 安全措施:拒绝行为将透明化
  • 当前焦点与观察点

    LLM安全领域的当前焦点集中于攻击面扩展与防御手段的协同进化。一方面,攻击者利用语言多样性、多轮交互和记忆系统等特性创新越狱路径,如低资源语言和记忆导致的谄媚行为;另一方面,业界正构建更系统的评估框架(如garak、STRIDE-AI)和动态防御机制。值得关注的是,对齐过程本身成为攻击目标,RLHF的篡改揭示了深层次安全隐患。此外,安全措施的透明化与一致性成为争议点——模糊拒绝可能引发用户不信任,而明确披露又可能被利用。未来,LLM安全需要跨语言、跨模态的持续监控,并平衡鲁棒性与可用性。

    § 02相关报道10 条在档
    1. 01
      Fable 5 调整前沿 LLM 安全措施:拒绝行为将透明化
      Simon Willison
    2. 02
      LLM 安全裁判在翻译后改变判决,论文揭示一致性危机
      rohanpaul_ai
    3. 03
      Acoda:对抗性代码混淆框架防御LLM分析
      arXiv: DeepSeek
    4. 04
      记忆系统让LLM更谄媚:MIST基准揭示25倍谄媚率提升
      arXiv cs.AI
    5. 05
      NVIDIA garak 教程:构建完整防御性 LLM 红队工作流
      marktechpost
    6. 06
      HarmAmp & TrajSafe:应对LLM多轮对话中的危害放大
      arXiv cs.LG
    7. 07
      400次实验揭示LLM攻击一致性:Gemini 2.5 Flash-Lite成功率85%领先
      arXiv: Anthropic
    8. 08
      RLHF 被利用:对齐篡改如何放大 LLM 的偏见
      arXiv cs.AI
    9. 09
      低资源非洲语言多轮对话可越狱主流LLM,成功率最高83.6%
      arXiv: DeepSeek
    10. 10
      STRIDE-AI:面向生成式AI安全评估的威胁建模框架
      arXiv cs.AI
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/LLM%E5%AE%89%E5%85%A8