精选理由
安全团队和LLM开发者需要警惕:多语言安全漏洞远未被堵住,低资源语言成为新的攻击面。建议立即检查自家模型的多轮对话安全机制。
研究发现,使用低资源非洲语言(如南非荷兰语、斯瓦希里语、科萨语和祖鲁语)进行多轮对话,可以绕过ChatGPT、Claude、DeepSeek、Gemini和Grok等商业大模型的安全护栏。单轮翻译攻击无效,但多轮对话在英语上达到52.7%-83.6%的有害响应率,非洲语言也达到41.8%-78.2%。人工红队测试比自动化方法越狱率更高,且翻译质量是决定越狱成功的关键因素——翻译质量越差,越狱率越低。
AI 翻译 · 中文
研究发现,使用低资源非洲语言(如南非荷兰语、斯瓦希里语、科萨语和祖鲁语)进行多轮对话,可以绕过ChatGPT、Claude、DeepSeek、Gemini和Grok等商业大模型的安全护栏。单轮翻译攻击无效,但多轮对话在英语上达到52.7%-83.6%的有害响应率,非洲语言也达到41.8%-78.2%。人工红队测试比自动化方法越狱率更高,且翻译质量是决定越狱成功的关键因素——翻译质量越差,越狱率越低。
Large Language Models (LLMs) remain vulnerable to jailbreak attempts that circumvent safety guardrails. We investigate whether multi-turn conversations using low-resource African languages (Afrikaans, Kiswahili, isiXhosa…