08:23Simon Willison’s Weblog(博客/媒体)Charles Ye、Jasmine Cui和Dylan Hadfield-Menell的论文发现,LLM在区分角色标签(如<system>、<think>、<assistant>)与用户输入时,更关注文本的书写风格而非实际语义。通过将攻击文本“去风格化”(destyling)改写,使其看起来与特权文本格式不同,平均攻击成功率从61%骤降至10%。该研究表明,当前模型缺乏真正的角色感知,持续提示注入防御仍是难题。论文prompt injection角色混淆LLM安全论文解读推荐理由:这篇论文揭示了一个反直觉的发现:LLM会被文本的风格欺骗,而不是内容。研究者用简单的'去风格化'就能把攻击成功率从61%打到10%,对理解AI安全很有启发。原文
01:55宝玉@dotey精选Mitchell Hashimoto 在 AGENTS.md 文件和代码注释中嵌入 prompt injection。这些注入用于检测未审查代码就直接提交至另一位人类维护者的贡献者。一旦检测到,他会立即封禁该贡献者。他认为在开源项目中,跨越人类边界前进行人工审查是基本礼貌。行业prompt injectionAGENTS.mdMitchell Hashimoto开源项目AI安全推荐理由:Mitchell 这招挺狠,在项目文件里埋 prompt injection,谁不审代码直接提交就封号。搞开源维护的可以学学这招防饭圈。原文
08:42岚叔@lufzzliz研究人员发现一种名为AudioHijack的新型攻击,将恶意指令隐藏在音频波形中,人耳无法察觉,但语音模型会将其作为输入指令处理。攻击成功率在13个主流音频模型中达79%到96%,可让模型搜索敏感信息、下载文件、发送邮件等。传统防御效果有限,常规检测仅降低7%成功率,自我检查也只抓住28%攻击。文章指出,语音AI的“听”与“动手”能力结合,使音频成为新的prompt injection入口,需要默认增加异常检测和工具权限隔离。AI产品语音AI安全漏洞AudioHijackprompt injection音频攻击推荐理由:语音AI的安全漏洞正在从文本扩展到音频,做语音助手或音频处理应用的开发者需要警惕,建议立即检查模型输入的安全防护。原文