全部 AI 动态 · AI 热点

6月23日

08:23

08:23Simon Willison’s Weblog（博客/媒体）

Charles Ye、Jasmine Cui和Dylan Hadfield-Menell的论文发现，LLM在区分角色标签（如<system>、<think>、<assistant>）与用户输入时，更关注文本的书写风格而非实际语义。通过将攻击文本“去风格化”（destyling）改写，使其看起来与特权文本格式不同，平均攻击成功率从61%骤降至10%。该研究表明，当前模型缺乏真正的角色感知，持续提示注入防御仍是难题。

论文 prompt injection 角色混淆 LLM安全论文解读

推荐理由：这篇论文揭示了一个反直觉的发现：LLM会被文本的风格欺骗，而不是内容。研究者用简单的'去风格化'就能把攻击成功率从61%打到10%，对理解AI安全很有启发。

6月20日

01:55

01:55

宝玉@dotey

精选

Mitchell Hashimoto 在 AGENTS.md 文件和代码注释中嵌入 prompt injection。这些注入用于检测未审查代码就直接提交至另一位人类维护者的贡献者。一旦检测到，他会立即封禁该贡献者。他认为在开源项目中，跨越人类边界前进行人工审查是基本礼貌。

行业 prompt injection AGENTS.md Mitchell Hashimoto 开源项目 AI安全

推荐理由：Mitchell 这招挺狠，在项目文件里埋 prompt injection，谁不审代码直接提交就封号。搞开源维护的可以学学这招防饭圈。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月19日

08:42

08:42

岚叔@lufzzliz

研究人员发现一种名为AudioHijack的新型攻击，将恶意指令隐藏在音频波形中，人耳无法察觉，但语音模型会将其作为输入指令处理。攻击成功率在13个主流音频模型中达79%到96%，可让模型搜索敏感信息、下载文件、发送邮件等。传统防御效果有限，常规检测仅降低7%成功率，自我检查也只抓住28%攻击。文章指出，语音AI的“听”与“动手”能力结合，使音频成为新的prompt injection入口，需要默认增加异常检测和工具权限隔离。

AI产品语音AI 安全漏洞 AudioHijack prompt injection 音频攻击

推荐理由：语音AI的安全漏洞正在从文本扩展到音频，做语音助手或音频处理应用的开发者需要警惕，建议立即检查模型输入的安全防护。