论文精选72°

低资源非洲语言多轮对话可越狱主流LLM,成功率最高83.6%

Multilingual jailbreaking of LLMs using low-resource languages

精选理由

安全团队和LLM开发者需要警惕:多语言安全漏洞远未被堵住,低资源语言成为新的攻击面。建议立即检查自家模型的多轮对话安全机制。

AI 摘要

研究发现,使用低资源非洲语言(如南非荷兰语、斯瓦希里语、科萨语和祖鲁语)进行多轮对话,可以绕过ChatGPT、Claude、DeepSeek、Gemini和Grok等商业大模型的安全护栏。单轮翻译攻击无效,但多轮对话在英语上达到52.7%-83.6%的有害响应率,非洲语言也达到41.8%-78.2%。人工红队测试比自动化方法越狱率更高,且翻译质量是决定越狱成功的关键因素——翻译质量越差,越狱率越低。

AI 翻译 · 中文

研究发现,使用低资源非洲语言(如南非荷兰语、斯瓦希里语、科萨语和祖鲁语)进行多轮对话,可以绕过ChatGPT、Claude、DeepSeek、Gemini和Grok等商业大模型的安全护栏。单轮翻译攻击无效,但多轮对话在英语上达到52.7%-83.6%的有害响应率,非洲语言也达到41.8%-78.2%。人工红队测试比自动化方法越狱率更高,且翻译质量是决定越狱成功的关键因素——翻译质量越差,越狱率越低。

arXiv: DeepSeekLarge Language Models (LLMs) remain vulnerable to jailbreak attempts that circumvent safety guardrails. We investigate whether multi-turn conversations using low-resource African languages (Afrikaans, Kiswahili, isiXhosa