LLM安全

§ 01综述

LLM安全是指确保大型语言模型在生成内容时避免产生有害、偏见或误导性输出的技术和管理措施，是当前AI治理的核心议题。随着模型能力的提升和应用场景的拓展，LLM安全面临从对抗性攻击到对齐篡改等多元挑战，相关研究和实践正快速演进。

LLM安全近期进展

低资源语言攻击与多轮对话风险：研究发现，使用低资源非洲语言进行的多轮对话可越狱主流LLM，成功率最高达83.6%，凸显了语言覆盖缺失带来的安全漏洞。同时，HarmAmp与TrajSafe框架揭示了多轮对话中危害的放大效应，提示安全评估需考虑对话上下文。 400次实验揭示LLM攻击一致性：Gemini 2.5 Flash-Lite成功率85%领先 HarmAmp & TrajSafe：应对LLM多轮对话中的危害放大低资源非洲语言多轮对话可越狱主流LLM，成功率最高83.6%

防御新技术与评估工具涌现：Acoda提出对抗性代码混淆框架，旨在防御LLM对代码的分析。STRIDE-AI为生成式AI的威胁建模提供了结构化框架。NVIDIA garak教程则面向开发者构建防御性红队工作流，推动实战化安全测试。 Acoda：对抗性代码混淆框架防御LLM分析 STRIDE-AI：面向生成式AI安全评估的威胁建模框架 NVIDIA garak 教程：构建完整防御性 LLM 红队工作流

对齐与安全措施的不一致问题：RLHF对齐过程可能被恶意利用，放大模型偏见。同时，安全裁判在翻译后改变判决，暴露出多语言安全评测的一致性危机。Fable 5明确调整策略，将拒绝行为透明化，引发对安全可见性的讨论。 RLHF 被利用：对齐篡改如何放大 LLM 的偏见 LLM 安全裁判在翻译后改变判决，论文揭示一致性危机 Fable 5 调整前沿 LLM 安全措施：拒绝行为将透明化

当前焦点与观察点

LLM安全领域的当前焦点集中于攻击面扩展与防御手段的协同进化。一方面，攻击者利用语言多样性、多轮交互和记忆系统等特性创新越狱路径，如低资源语言和记忆导致的谄媚行为；另一方面，业界正构建更系统的评估框架（如garak、STRIDE-AI）和动态防御机制。值得关注的是，对齐过程本身成为攻击目标，RLHF的篡改揭示了深层次安全隐患。此外，安全措施的透明化与一致性成为争议点——模糊拒绝可能引发用户不信任，而明确披露又可能被利用。未来，LLM安全需要跨语言、跨模态的持续监控，并平衡鲁棒性与可用性。

§ 02相关报道10 条在档

§ 03邻近话题