提示注入新研究：角色混淆让LLM更信文本风格而非内容

精选理由

这篇论文揭示了一个反直觉的发现：LLM会被文本的风格欺骗，而不是内容。研究者用简单的'去风格化'就能把攻击成功率从61%打到10%，对理解AI安全很有启发。

AI 摘要

Charles Ye、Jasmine Cui和Dylan Hadfield-Menell的论文发现，LLM在区分角色标签（如<system>、<think>、<assistant>）与用户输入时，更关注文本的书写风格而非实际语义。通过将攻击文本“去风格化”（destyling）改写，使其看起来与特权文本格式不同，平均攻击成功率从61%骤降至10%。该研究表明，当前模型缺乏真正的角色感知，持续提示注入防御仍是难题。

AI 翻译 · 中文

Simon Willison’s WeblogPrompt Injection as Role Confusion First, I absolutely love this: This is a blog-style writeup of the paper. I wish every paper would come with one of these. Academic writing is pretty dry - the impact of a paper can be …

阅读原文