低资源非洲语言多轮对话可越狱主流LLM，成功率最高83.6%

精选理由

安全团队和LLM开发者需要警惕：多语言安全漏洞远未被堵住，低资源语言成为新的攻击面。建议立即检查自家模型的多轮对话安全机制。

AI 摘要

研究发现，使用低资源非洲语言（如南非荷兰语、斯瓦希里语、科萨语和祖鲁语）进行多轮对话，可以绕过ChatGPT、Claude、DeepSeek、Gemini和Grok等商业大模型的安全护栏。单轮翻译攻击无效，但多轮对话在英语上达到52.7%-83.6%的有害响应率，非洲语言也达到41.8%-78.2%。人工红队测试比自动化方法越狱率更高，且翻译质量是决定越狱成功的关键因素——翻译质量越差，越狱率越低。

AI 翻译 · 中文

arXiv: DeepSeekLarge Language Models (LLMs) remain vulnerable to jailbreak attempts that circumvent safety guardrails. We investigate whether multi-turn conversations using low-resource African languages (Afrikaans, Kiswahili, isiXhosa…

阅读原文