11:39arXiv cs.AI@Liran Tal, Johannes Kloos, Arsenii Rudich, Stephen Thoemmes, Manoj Nair该论文通过300次重复漏洞扫描,测量了LLM在JavaScript代码安全审查中的可重复性。在250次模型运行中,80个唯一不匹配发现仅出现在一次重复中,22个出现在全部五次。相比之下,Claude匹配Snyk Code参考发现时更稳定:134个唯一匹配发现出现在全部五次。Snyk Code SAST是确定性的,能系统枚举重复数据流汇点。结果表明,将agentic LLM审查与确定性SAST结合比单独使用任一方法更好。论文SnykVulnBenchClaudeLLMAI安全代码审计推荐理由:这篇论文测试了LLM重复找漏洞的稳定性,发现Claude匹配结果很稳,但自己新发现的漏洞随机性高。建议和安全工具搭配用,别靠它单干。原文
16:42AI Will@FinanceYF5Claude Fable 模型限时可用,用户 ShaDcn 展示了如何利用其 /improve 指令高效审计代码库。该指令使用最强模型分析代码,排查 bug、性能问题、技术债务、缺失测试和待开发功能,并为低成本模型生成后续执行计划。这一方法能显著提升代码审查效率,适合开发团队快速定位问题并制定修复方案。由于 Fable 仅限几天使用,开发者应抓紧时间体验。AI产品Claude Fable代码审计开发工具智能体技术债务1 个信源在谈推荐理由:做代码审查和项目维护的开发者,可以用 /improve 指令快速获得专业审计报告和可执行计划,省去手动排查的繁琐,建议趁 Fable 限时赶紧试试。原文
16:39AI Will@FinanceYF5shadcn 推出 /improve 功能,允许用户用 Claude Fable 等最强模型审计代码库,发现 bug、性能问题、技术债务和缺失测试,并生成可被任何智能体执行的计划。该功能旨在让用户充分利用 Claude Fable 的短暂可用期,将高成本的分析任务交给最强模型,而将执行任务交给更便宜的模型,从而优化成本与效率。对于需要深度代码审查和自动化重构的开发者来说,这是一个实用的工具。AI产品代码审计智能体shadcnClaude Fable自动化重构1 个信源在谈推荐理由:shadcn 的 /improve 解决了代码审计成本高、执行效率低的问题,做代码质量管理和自动化重构的开发者可以直接用最强模型分析、便宜模型执行,建议试试。原文
09:36IT之家(博客/媒体)精选Anthropic 宣布扩展其安全计划 Project Glasswing,向全球 15 个国家和地区约 200 家组织开放 Claude Mythos 模型。该模型用于查找操作系统和浏览器中的安全漏洞,辅助人类研究员进行代码审计。此前仅面向苹果等少数伙伴,现在新增约 150 家组织,包括三星和 NATO 可能加入。Anthropic 仍采用受控开放,新伙伴需满足安全要求。AI产品AnthropicClaude Mythos安全漏洞代码审计Project Glasswing10 个信源在谈推荐理由:安全研究员和漏洞挖掘团队终于有了更强大的 AI 辅助工具——Claude Mythos 能大幅提升代码审计效率,做企业安全审计的可以直接关注。原文
00:40岚叔@lufzzliz78°一位开发者分享了 Claude Code 动态工作流(Dynamic Workflows)的实操经验。该功能通过将控制流和中间数据移入独立 JS 脚本,由 runtime 后台编排多个 subagent,突破单上下文窗口限制,支持最多 1000 个 subagent。触发方式包括在 prompt 中带 workflow 关键词、使用 /effort ultracode 命令或运行已有 workflow。适合代码库审计、大规模迁移、交叉验证等大型任务,但日常小改不推荐。作者在测试中跑了 96 个 agent、耗费 220 万 token 却因额度超限无产出,提醒注意额度规划。AI产品Claude Code动态工作流subagent代码审计额度规划推荐理由:做大型代码库审计或迁移的开发者,Dynamic Workflows 能并行编排上百个 subagent 交叉验证,比单上下文高效太多。想突破 Claude Code 上下文限制的团队,建议先看这篇踩坑报告再动手。原文
07:47Greg Brockman@gdb76°安全研究员 Philo Groves 发现 GPT-5.5 在网络安全任务中表现出色,成功定位了一个 1999 年 4 月引入的远程代码执行(RCE)漏洞,该漏洞已存在 27 年。经过多次验证,确认该发现真实有效。这一事件表明 GPT-5.5 在代码审计和漏洞挖掘方面的能力远超预期,可能改变安全行业的工作方式。目前该漏洞正在准备负责任地披露。AI模型GPT-5.5网络安全漏洞挖掘RCE代码审计推荐理由:GPT-5.5 挖出 27 年历史漏洞,安全从业者可以重新评估 AI 在代码审计中的价值,建议关注后续披露细节。原文
09:50shao__meng@shao__meng精选72°Cursor 团队公开了他们内部最常用的技能(Skill)——thermo-nuclear-code-quality-review,一个在 PR 合并前识别并拒绝“能跑但让代码库变糟”改动的代码质量审计员。该 Skill 遵循四条核心原则:删除复杂性而非搬运、阻止超过 1000 行的文件、标记薄包装层和泄漏逻辑、拒绝功能正确但维护性差的 PR。其运行机制采用两阶段父子 Agent 协作,父 Agent 准备上下文,子 Agent 执行审计,确保判断聚焦且不受噪声干扰。该工具旨在将可维护性提升到与功能性同等重要的地位,对追求代码质量的团队有直接参考价值。AI产品Cursor代码审计PR 审查代码质量AI 编程助手10 个信源在谈推荐理由:Cursor 团队把内部压箱底的代码审计实践公开了,做 Code Review 的团队可以直接抄作业——用这套 Skill 在 PR 合并前拦住那些“能跑但让代码库变糟”的改动,建议点开看看具体怎么配置。原文
21:56Cloudflare Blog@Grant Bourzikas精选Cloudflare 近期将安全大模型 Mythos 等应用于其关键基础设施的实时代码审计,并分享了观察结果。Mythos 在发现特定类型的安全漏洞(如注入攻击、权限提升)上表现出色,但在处理复杂逻辑错误和上下文依赖的漏洞时仍有局限。该实验揭示了当前安全 LLM 在规模化部署前需要解决的可靠性、可解释性和误报率问题。这项工作为 AI 辅助代码安全审计提供了宝贵的实践参考,表明模型需要与人工审查和传统工具协同工作。AI产品安全大模型代码审计CloudflareMythosAI 安全推荐理由:安全团队和基础设施开发者可以从中了解当前安全 LLM 的真实能力边界——Mythos 能抓哪些漏洞、会漏哪些,以及规模化落地前必须补齐的短板,值得点开看具体案例。原文