六种LLM在多语言与混淆攻击场景下的提示注入漏洞实证评估

精选理由

这篇论文告诉你，DeepSeek、GPT这些模型在非英语场景下有多容易被黑客利用来生成钓鱼内容，安全对齐的漏洞比想象中大。

AI 摘要

该论文对DeepSeek、GPT、Gemini、Grok、Llama和Qwen六种前沿LLM进行了提示注入漏洞实证评估。测试涵盖直接攻击与多阶段混淆攻击，涉及多种语言和字符编码。结果显示所有模型均存在系统性漏洞，非英语语种的恶意合规率显著高于英语。DeepSeek、Gemini和Grok在复杂指令下尤其易受攻击，简单字符编码仅部分降低风险。

AI 翻译 · 中文

arXiv: DeepSeekLarge Language Models (LLMs) have rapidly evolved, transforming industries by automating complex tasks and generating human-like content. However, as their adoption accelerates, prompt injection vulnerabilities have beco…

阅读原文