全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:39

arXiv cs.AI@Liran Tal, Johannes Kloos, Arsenii Rudich, Stephen Thoemmes, Manoj Nair

该论文通过300次重复漏洞扫描，测量了LLM在JavaScript代码安全审查中的可重复性。在250次模型运行中，80个唯一不匹配发现仅出现在一次重复中，22个出现在全部五次。相比之下，Claude匹配Snyk Code参考发现时更稳定：134个唯一匹配发现出现在全部五次。Snyk Code SAST是确定性的，能系统枚举重复数据流汇点。结果表明，将agentic LLM审查与确定性SAST结合比单独使用任一方法更好。

论文 Snyk VulnBench Claude LLM AI安全代码审计

推荐理由：这篇论文测试了LLM重复找漏洞的稳定性，发现Claude匹配结果很稳，但自己新发现的漏洞随机性高。建议和安全工具搭配用，别靠它单干。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

16:42

AI Will@FinanceYF5

Claude Fable 模型限时可用，用户 ShaDcn 展示了如何利用其 /improve 指令高效审计代码库。该指令使用最强模型分析代码，排查 bug、性能问题、技术债务、缺失测试和待开发功能，并为低成本模型生成后续执行计划。这一方法能显著提升代码审查效率，适合开发团队快速定位问题并制定修复方案。由于 Fable 仅限几天使用，开发者应抓紧时间体验。

AI产品 Claude Fable 代码审计开发工具智能体技术债务

推荐理由：做代码审查和项目维护的开发者，可以用 /improve 指令快速获得专业审计报告和可执行计划，省去手动排查的繁琐，建议趁 Fable 限时赶紧试试。

原文

16:39

AI Will@FinanceYF5

shadcn 推出 /improve 功能，允许用户用 Claude Fable 等最强模型审计代码库，发现 bug、性能问题、技术债务和缺失测试，并生成可被任何智能体执行的计划。该功能旨在让用户充分利用 Claude Fable 的短暂可用期，将高成本的分析任务交给最强模型，而将执行任务交给更便宜的模型，从而优化成本与效率。对于需要深度代码审查和自动化重构的开发者来说，这是一个实用的工具。

AI产品代码审计智能体 shadcn Claude Fable 自动化重构

推荐理由：shadcn 的 /improve 解决了代码审计成本高、执行效率低的问题，做代码质量管理和自动化重构的开发者可以直接用最强模型分析、便宜模型执行，建议试试。

原文

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月3日

09:36

09:36IT之家（博客/媒体）

精选

Anthropic 宣布扩展其安全计划 Project Glasswing，向全球 15 个国家和地区约 200 家组织开放 Claude Mythos 模型。该模型用于查找操作系统和浏览器中的安全漏洞，辅助人类研究员进行代码审计。此前仅面向苹果等少数伙伴，现在新增约 150 家组织，包括三星和 NATO 可能加入。Anthropic 仍采用受控开放，新伙伴需满足安全要求。

AI产品 Anthropic Claude Mythos 安全漏洞代码审计 Project Glasswing

推荐理由：安全研究员和漏洞挖掘团队终于有了更强大的 AI 辅助工具——Claude Mythos 能大幅提升代码审计效率，做企业安全审计的可以直接关注。

原文

5月30日

00:40

岚叔@lufzzliz

78°

一位开发者分享了 Claude Code 动态工作流(Dynamic Workflows)的实操经验。该功能通过将控制流和中间数据移入独立 JS 脚本，由 runtime 后台编排多个 subagent，突破单上下文窗口限制，支持最多 1000 个 subagent。触发方式包括在 prompt 中带 workflow 关键词、使用 /effort ultracode 命令或运行已有 workflow。适合代码库审计、大规模迁移、交叉验证等大型任务，但日常小改不推荐。作者在测试中跑了 96 个 agent、耗费 220 万 token 却因额度超限无产出，提醒注意额度规划。

AI产品 Claude Code 动态工作流 subagent 代码审计额度规划

推荐理由：做大型代码库审计或迁移的开发者，Dynamic Workflows 能并行编排上百个 subagent 交叉验证，比单上下文高效太多。想突破 Claude Code 上下文限制的团队，建议先看这篇踩坑报告再动手。

原文

5月28日

07:47

Greg Brockman@gdb

76°

安全研究员 Philo Groves 发现 GPT-5.5 在网络安全任务中表现出色，成功定位了一个 1999 年 4 月引入的远程代码执行（RCE）漏洞，该漏洞已存在 27 年。经过多次验证，确认该发现真实有效。这一事件表明 GPT-5.5 在代码审计和漏洞挖掘方面的能力远超预期，可能改变安全行业的工作方式。目前该漏洞正在准备负责任地披露。

AI模型 GPT-5.5 网络安全漏洞挖掘 RCE 代码审计

推荐理由：GPT-5.5 挖出 27 年历史漏洞，安全从业者可以重新评估 AI 在代码审计中的价值，建议关注后续披露细节。

原文

5月22日

09:50

shao__meng@shao__meng

精选72°

Cursor 团队公开了他们内部最常用的技能（Skill）——thermo-nuclear-code-quality-review，一个在 PR 合并前识别并拒绝“能跑但让代码库变糟”改动的代码质量审计员。该 Skill 遵循四条核心原则：删除复杂性而非搬运、阻止超过 1000 行的文件、标记薄包装层和泄漏逻辑、拒绝功能正确但维护性差的 PR。其运行机制采用两阶段父子 Agent 协作，父 Agent 准备上下文，子 Agent 执行审计，确保判断聚焦且不受噪声干扰。该工具旨在将可维护性提升到与功能性同等重要的地位，对追求代码质量的团队有直接参考价值。

AI产品 Cursor 代码审计 PR 审查代码质量 AI 编程助手

推荐理由：Cursor 团队把内部压箱底的代码审计实践公开了，做 Code Review 的团队可以直接抄作业——用这套 Skill 在 PR 合并前拦住那些“能跑但让代码库变糟”的改动，建议点开看看具体怎么配置。

原文

5月18日

21:56

Cloudflare Blog@Grant Bourzikas

精选

Cloudflare 近期将安全大模型 Mythos 等应用于其关键基础设施的实时代码审计，并分享了观察结果。Mythos 在发现特定类型的安全漏洞（如注入攻击、权限提升）上表现出色，但在处理复杂逻辑错误和上下文依赖的漏洞时仍有局限。该实验揭示了当前安全 LLM 在规模化部署前需要解决的可靠性、可解释性和误报率问题。这项工作为 AI 辅助代码安全审计提供了宝贵的实践参考，表明模型需要与人工审查和传统工具协同工作。

AI产品安全大模型代码审计 Cloudflare Mythos AI 安全

推荐理由：安全团队和基础设施开发者可以从中了解当前安全 LLM 的真实能力边界——Mythos 能抓哪些漏洞、会漏哪些，以及规模化落地前必须补齐的短板，值得点开看具体案例。

原文