全部 AI 动态 · AI 热点

6月27日

13:12

13:12Simon Willison’s Weblog（博客/媒体）

Fernando Irarrázaval 在 hackmyclaw.com 发起挑战，使用 OpenClaw 测试实例（基于 Opus 4.6 模型）验证能否通过邮件泄露秘密。6000 次攻击尝试消耗了 500 美元 token 并导致 Google 账号暂停，但无人成功。挑战中的反注入提示规则防止了模型泄露 secrets.env 或执行代码。作者认为前沿模型（如 Opus 4.6）在抗提示注入方面训练有效，但警告生产系统仍需谨慎。

行业 OpenClaw Opus 4.6 提示注入 AI安全安全测试

推荐理由：别人花了 500 美元做实验，6000 次攻击没得手，但这不意味着你也能保险。读读这个真实测试。

原文

6月19日

01:43

Anthropic@AnthropicAI

精选

Anthropic 发布 Frontier Red Team 博客，介绍 Project Fetch 第二阶段：测试 Claude 编程机器人狗的能力。Opus 4.7 自主完成编程任务，速度比去年最佳人类团队（使用 Opus 4.1）快约 20 倍。尽管速度提升显著，机器人狗仍未成功取回沙滩球。该研究旨在评估前沿模型在物理世界中的自主能力与安全风险。

AI模型 Claude Opus 4.7 Anthropic 机器人编程安全测试

推荐理由：Anthropic 让 Claude 自己写代码控制机器狗，速度比人快20倍，虽然最后没抓到球，但过程特别有意思

原文

6月17日

23:30

Decoder@Maximilian Schreiner

精选

OpenAI研究人员提出一种新方法，用于预测AI模型在发布后出现错误的频率。该方法旨在弥补当前标准安全测试的不足。研究团队通过分析模型内部特征与测试数据来估算失败概率。该工作可能帮助开发者更早发现潜在风险。

论文 OpenAI AI安全模型测试预测方法安全测试

推荐理由：OpenAI研究者搞了个预测模型出错率的方法，能补上安全测试的漏洞，让发布更靠谱。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

16:04

16:04IT之家（博客/媒体）

精选

安全研究员Kasra Rahjerdi搭建了一个故意留有漏洞的图书评论APK，测试多款AI大语言模型的安全推理能力。模型需解包APK并识别暴露的Firebase凭据以绕过API访问数据库。每个模型预算10美元，限时2小时，总花费1500美元。结果显示，GPT-5.5在10次运行中成功7次，每次成功成本9.46美元；DeepSeek V4 Pro成功3次，但每次成功成本仅0.62美元，约为GPT-5.5的十五分之一。Gemini多次在任务早期拒绝继续，而Claude Sonnet 4.6和Opus 4.8各成功2次。该测试揭示了不同模型在安全漏洞利用任务中的性能与成本差异，对批量运行安全工具的团队具有现实意义。

AI模型安全测试 GPT-5.5 DeepSeek V4 Pro 漏洞利用成本对比

推荐理由：安全团队和AI开发者可以直观看到不同模型在真实漏洞利用任务中的性价比——GPT-5.5最可靠但贵，DeepSeek V4 Pro成本极低但成功率有限，做自动化安全测试的团队值得参考这个对比。

原文

5月30日

04:18

Fireworks AI@FireworksAI_HQ

Ramp Labs 在自家后端部署了 1 万个 AI 智能体进行安全测试，发现开源模型（Kimi K2.6 和 DeepSeek V4 Pro）在 Fireworks 上运行，能以比 GPT 5.5 低约 5 倍的 token 成本，成功发现 7 个高危漏洞。Ramp 表示如果重做，会更依赖开源模型。这为开源权重模型在安全领域的价值提供了有力证据，表明在 GPU 资源稀缺的背景下，成本和效果需要平衡。

行业开源模型安全测试智能体成本优化 Ramp Labs

推荐理由：做安全测试或 AI 落地的团队，这个案例直接告诉你：开源模型在真实生产代码中能低成本挖出高危漏洞，值得在预算有限时优先尝试。

原文

5月13日

19:12

arXiv: DeepSeek@Ali Karakoc, H. Birkan Yilmaz

精选

该论文提出两种基于大语言模型（LLM）的对抗性SQL注入生成系统：RADAGAS（检索增强生成）和RefleXQLi（反思链式推理），用于自动化测试Web应用防火墙（WAF）的防御能力。研究使用GPT-4o、Claude 3.7 Sonnet和DeepSeek R1，在10种WAF（包括规则型、AI/ML型和商业型）上进行了240次实验，生成了24万个payload并执行了220万次测试。结果显示，RADAGAS-GPT4o以22.73%的绕过率领先基线模型，对AI/ML型WAF（如WAF-Brain和CNN-WAF）的绕过率高达92.49%和80.48%，但对规则型WAF（如ModSecurity和Coraza）的绕过率仅0-5.70%。研究还发现，多样性较低的payload更容易绕过，但若初始payload失败则效果不佳。这项工作为安全测试中LLM的应用提供了全面视角。

论文 SQL注入 LLM 对抗性攻击 WAF绕过安全测试

推荐理由：安全工程师和渗透测试人员可以借鉴RADAGAS和RefleXQLi的思路，自动化生成对抗性SQL注入payload来评估自家WAF的盲区，尤其是AI/ML型WAF的脆弱点值得重点关注。

原文