03:57Greg Brockman@gdb精选73°OpenAI推出了Codex Security插件,专为安全团队设计。该插件支持深度代码扫描、自动验证发现结果,并能够追踪攻击路径。它还可以构建威胁模型,生成针对代码库的特定补丁用于审查。此外,支持将分析结果导出到其他安全工具中。AI产品CodexOpenAI安全代码扫描AI安全10 个信源在谈推荐理由:OpenAI给安全团队出了个Codex插件,能深度扫描代码、自动验证漏洞、画攻击路径,还生成专属补丁,省事儿不少。原文
03:07GitHub Blog@Natalie Guevara精选GitHub 博客介绍了如何通过上下文感知的 LLM 推理来改进秘密扫描的验证步骤,从而大规模减少误报。这一改进使得安全警报更加可信和可操作,降低了开发者的噪音负担。通过利用 LLM 理解代码上下文,GitHub 能够更准确地识别真正的秘密,避免对非敏感信息的误报。这对于依赖 GitHub 进行代码托管和 CI/CD 的团队来说,是一个重要的安全增强。AI产品GitHub秘密扫描LLM误报安全推荐理由:GitHub 用 LLM 解决了秘密扫描的误报痛点,做安全运维或使用 GitHub 的开发者可以直接减少噪音,提升警报可信度。原文
12:18Tw93@HiTw93精选Warp 终端发布更新,新增会话回滚功能,重新打开窗格可恢复最多 1500 行滚动内容,且 AI 输出时滚动或调整窗口大小不会跳回顶部。Codex 后端让助手直接使用现有 Codex 登录,无需额外 API 密钥。AI 聊天支持实时流式回答、/suggest 建议下一条消息,并可靠地重新打开。AI Shell 的 # 快速修复增加了注入检测,并阻止访问 .env 和 SSH 密钥等凭证文件。SmartPrompt 在无代理或编辑器运行时支持 Cmd+Q 快速退出,Smart Tab 默认先接受灰色自动建议。AI产品Warp终端会话回滚AI 聊天安全1 个信源在谈推荐理由:Warp 这次更新解决了终端用户最头疼的会话丢失和 AI 输出跳转问题,做开发运维的团队可以直接升级体验,建议点开看看完整更新列表。原文
11:08arXiv cs.LG@Gilad Gressel, Rahul Pankajakshan, Julia Diament, Efim Hudis, Krishnashree Achuthan, Yisroel Mirsky精选随着LLM被部署为智能体,可靠监控需要知道不仅输出内容,还有哪些指令在引导其行为。当模型推断意外子目标、遵循上下文线索或受提示注入和隐藏目标影响时,这变得困难。现有激活到语言方法无法恢复智能体场景中同时活跃的完整指令集、约束、禁止和子目标。PRISM是一个激活条件解释器,从冻结目标模型的隐藏状态解码出忠实的活动指令要点列表。它使用法官引导的GRPO训练,奖励覆盖的指令并惩罚无支持的指令,在良性、约束、提示注入和隐藏目标设置中优于基线方法,尤其在安全相关目标上表现突出。论文指令恢复激活解释智能体监控安全LLM推荐理由:PRISM解决了LLM智能体监控中指令恢复的盲区,对安全团队和AI治理开发者来说,这是直接可用的工具,建议关注其在实际部署中的效果。原文
02:12LangChain@LangChainAI精选LangChain 提出每个智能体都需要一台“计算机”,关键在于如何安全地提供。他们推出了 LangSmith Sandboxes,作为解决方案,旨在为 AI 智能体提供隔离、可控的执行环境。这解决了智能体在运行代码或访问资源时的安全风险问题,让开发者能更放心地部署自主代理。该功能目前已在 LangSmith 平台上线,值得关注。AI产品智能体安全LangChainLangSmith沙箱推荐理由:LangChain 解决了智能体安全执行的核心痛点,做自主代理开发的团队可以直接用 Sandboxes 隔离风险,建议点开看看具体实现。原文
18:00Decoder@Matthias Bastian精选OpenAI 为 ChatGPT 推出了新的 Lockdown Mode(锁定模式),该模式会禁用网页访问、Deep Research 和 Agent Mode 等功能,旨在阻止通过提示注入攻击窃取敏感数据。该模式并不能完全防止提示注入攻击,它只阻断了数据外泄链条的最后一步。提示注入仍然是一个未解决的问题。该功能主要面向需要处理敏感信息的企业用户,提供额外的安全层。AI产品ChatGPT安全提示注入企业功能OpenAI10 个信源在谈推荐理由:企业团队终于有了一个实用的安全选项——Lockdown Mode 通过切断数据外泄路径来降低提示注入风险,处理机密信息的 ChatGPT 用户值得开启。原文
09:13Simon Willison’s Weblog(博客/媒体)精选OpenAI 正式上线 Lockdown Mode(锁定模式),该功能旨在通过限制出站网络请求来阻止提示注入攻击中的数据窃取。它不阻止提示注入本身,但能切断攻击者利用模型窃取敏感数据的通道。Lockdown Mode 面向免费、Go、Plus、Pro 及自助 ChatGPT Business 账户逐步开放。这一机制直接针对“致命三要素”中的数据外泄环节,且不依赖 AI 评估,因此更可靠。但这也意味着默认 ChatGPT 设置下,数据外泄防护并不充分。AI产品安全提示注入OpenAIChatGPT数据保护10 个信源在谈推荐理由:提示注入是 LLM 应用的头号安全威胁,Lockdown Mode 用确定性机制切断了数据外泄路径,做 AI 安全或部署 ChatGPT 的团队值得关注并启用。原文
10:51Weaviate@weaviate_io精选Weaviate 指出,RAG Agent 在生产环境中的成败不取决于模型,而取决于系统设计的四个基础层:安全、检索、指令和护栏。许多团队止步于演示阶段,但实际部署中会出现幻觉、输出不一致、安全漏洞等问题。可靠的 Agent 需要在这些层面进行严格设计,才能从演示变成真正可信的系统。文章提供了免费技术指南,涵盖高级 RAG 技术、工作流架构和安全实践。AI产品RAGAgent系统设计安全生产部署推荐理由:做 RAG 应用的团队别再只盯着模型了——这篇把生产环境踩坑的四个关键层讲透了,建议做 Agent 架构的开发者点开看看,能省不少试错成本。原文
08:18Simon Willison’s Weblog(博客/媒体)精选Simon Willison 发布了 datasette-agent-micropython 0.1a0,旨在让 Datasette Agent 安全地生成并执行 Python 代码。该版本使用 MicroPython 在 WebAssembly 沙箱中运行代码,目前 GPT-5.5 生成的代码尚未突破沙箱限制。这个 alpha 版本看起来很有前景,为 AI 驱动的代码执行提供了更安全的隔离方案。AI产品沙箱PythondatasetteWebAssembly安全推荐理由:Datasette 用户和 AI 安全研究者值得关注——这个沙箱方案解决了 AI 生成代码的安全执行痛点,GPT-5.5 都未能逃逸,做数据分析和 AI Agent 的可以试试。原文
10:05Harrison Chase@hwchase17精选LangChain 宣布 LangSmith Sandboxes 正式可用,这是一个让智能体安全编写和执行代码的沙箱环境。该沙箱与运行时隔离,支持网络控制、持久化状态,并在出错时提供快照/恢复功能。LangChain 创始人认为未来所有智能体都需要具备写代码和执行代码的能力。开发者可在 20 分钟内学会如何安全运行智能体代码。AI产品智能体沙箱LangSmith代码执行安全推荐理由:智能体安全执行代码是构建可靠 AI 系统的关键,做智能体开发的团队可以直接用这个沙箱来隔离风险,建议试试。原文
09:55LangChain@LangChainAI精选LangChain 的 MukilLoganathan 在 Interrupt 大会上发表了关于沙箱(Sandboxes)的主题演讲。演讲在 20 分钟内展示了如何安全运行智能体代码,包括与运行时隔离、网络控制、持久化状态,以及在出错时进行快照和恢复。这对于需要部署 AI 智能体的开发者来说,是保障安全性和可靠性的关键实践。视频已在 YouTube 上线,值得相关从业者观看。AI产品LangChain智能体沙箱安全部署推荐理由:LangChain 官方教你如何安全运行智能体代码,做 AI 智能体部署的开发者可以直接看视频学习,20 分钟掌握沙箱隔离、网络控制和快照恢复等关键技巧。原文
10:41arXiv cs.AI@Maksuda Bilkis Baby, Khushika Shah, Naiyue Liang, Lei Zhang精选针对公开代码仓库中凭据泄露检测高误报率问题,研究者提出一个三类分类框架,将占位符/弱凭据作为独立类别,结合CodeBERT语义理解与字符级模式识别。在包含10种编程语言的9426个样本数据集上,模型在真实凭据泄露检测上达到93%召回率和89%精确率,同时将高严重性告警减少33%。相比纯字符级方法,占位符/弱凭据检测F1从54%提升至81%,且跨语言泛化能力强,9/10语言在留一语言评估中F1超过0.80。论文凭据泄露检测CodeBERTCNN安全开源仓库推荐理由:安全团队终于有了能区分真实凭据和占位符的检测工具,误报率大幅降低。做DevSecOps的开发者可以直接参考这个框架来优化自己的凭据扫描流程。原文
10:00Simon Willison’s Weblog(博客/媒体)精选72°Anthropic 发布了一篇详细的技术文章,介绍了如何在 Claude.ai、Claude Code 和 Claude Cowork 三个产品中实现沙箱隔离。文章解释了不同产品使用的沙箱技术:Claude.ai 使用 gVisor,Claude Code 在本地运行并使用 macOS 的 Seatbelt 和 Linux 的 Bubblewrap,而 Claude Cowork 则运行完整的虚拟机。文章还披露了一些之前未公开的安全风险,例如通过 api.anthropic.com/v1/files 进行数据泄露的漏洞。这篇文档填补了行业在沙箱产品文档化方面的空白,让用户能更清楚地评估其安全性。AI产品沙箱/隔离安全ClaudeClaude CodeAnthropic10 个信源在谈推荐理由:Anthropic 首次公开了 Claude 系列产品的沙箱实现细节,做 AI 安全或部署 LLM 应用的团队可以据此评估信任边界,建议直接阅读原文了解具体漏洞案例。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
08:05Simon Willison’s Weblog(博客/媒体)精选Simon Willison 发布了 datasette-agent-sprites 0.1a0,这是一个 Datasette Agent 插件,允许用户在 Fly Sprites 沙箱中安全地运行命令。该插件利用 Fly Sprites 的隔离环境来执行代码,从而避免对主机系统造成风险。这对于需要在 Datasette 中执行用户提供的或不可信代码的场景特别有用,例如数据分析或自动化任务。通过沙箱化,插件增强了 Datasette 的安全性,同时保持了灵活性和易用性。AI产品沙箱DatasetteFly插件安全推荐理由:如果你在用 Datasette 做数据分析或自动化,这个插件让你安全地执行不可信代码,建议试试 Fly Sprites 沙箱的隔离能力。原文
11:15arXiv cs.AI@Mohamed Almukhtar, Anwar Ghammam, Hua Ming精选一项针对 AI 代理生成的 Python 重构 Pull Request 的实证研究发现,平均 22.5% 的变更提升了代码质量属性,其中可用性提升最频繁(36.5%)。但 24.17% 的修改文件引入了新的 Pylint 问题(主要是约定违规如长行),4.7% 引入了新的 Bandit 安全发现。尽管存在这些问题,73.5% 的 PR 被合并,包括那些引入新问题但同时也移除了旧问题的案例。研究还归纳了 24 种常见变更操作及其与 lint/安全发现的关系,强调了在 AI 驱动开发中加强质量与安全门控的必要性。论文AI 编程代码质量安全重构Python推荐理由:AI 写代码到底靠不靠谱?这篇论文用数据说话——重构 PR 质量有提升也有隐患,做 AI 编程工具或代码审查的团队值得看看,能帮你设计更好的质量门控。原文
07:59Claude@claudeai精选Claude AI 推出 MCP tunnels 功能,允许智能体在不暴露于公网的情况下,安全访问私有网络内的 MCP 服务器。该功能解决了企业级 AI 应用中数据安全和网络隔离的关键痛点,无需开放公网端口即可实现内部服务的调用。开发者可以直接在私有网络内部署 MCP 服务器,并通过隧道机制与智能体通信,降低安全风险。AI产品MCP/工具智能体安全Claude私有网络推荐理由:企业 AI 开发者终于有了安全访问内部服务的方案——MCP tunnels 解决了私有网络暴露的痛点,做企业级智能体集成的团队可以直接用。原文
09:54arXiv cs.AI@Nicanor Mayumu, Xiaoheng Deng, Patrick Mukala精选该研究首次系统评估了视觉-语言-动作(VLA)驾驶模型在推理忠实性方面的表现,分析了 Alpamayo-R1-10B 在 100 个场景中的 300 次推理。结果显示,模型输出的自然语言推理与轨迹存在显著不忠实:整体推理忠实度仅 42.5%,Chain-of-Causation 匹配场景现实不到一半;在三分之一的行人相关场景中遗漏了 94 个行人;轻微视觉扰动导致 97.7% 的轨迹脆弱;推理-动作一致性仅 48.3%,其中 53.3% 的推理一致性低,37.9% 声称停止但模型继续前进。研究从信息论角度形式化了忠实性,定义了实体和动作忠实性验证标准,并提出了四组件安全架构。论文VLA自动驾驶推理忠实性安全Chain-of-Causation推荐理由:VLA 驾驶模型的推理不忠实问题直接关系到自动驾驶安全,做自动驾驶或具身智能的开发者值得关注——你的模型可能声称停车但实际在开。原文
14:30Greg Brockman@gdb精选73°OpenAI 开发者团队在 X 上分享了为 Codex 构建 Windows 沙盒的细节。核心挑战是如何让编程代理保持高效,同时避免开发者陷入频繁的审批弹窗或完全开放机器权限的两难。他们设计了一套沙盒机制,允许代码执行在受限环境中运行,既保障安全又减少用户干扰。这一方案旨在提升 Windows 上 AI 编程助手的实用性和安全性。AI产品CodexWindows 沙盒编程助手安全OpenAI10 个信源在谈推荐理由:Windows 开发者终于有了兼顾安全与效率的 AI 编程方案,做自动化脚本或使用 Codex 的团队值得了解这个沙盒设计,能直接减少审批弹窗的烦恼。原文
21:35Anthropic: Engineering(资讯)精选Anthropic 发布 Claude Code 的安全升级,引入沙箱执行环境和细粒度权限控制,使 AI 编程助手在自主执行代码时更安全。新系统允许用户为不同操作设置权限级别(如允许、拒绝、询问),并支持在隔离环境中运行高风险命令。这解决了 AI 编程工具在自动化过程中可能误操作或泄露敏感数据的问题。开发者可以更放心地让 Claude Code 自主完成复杂任务,同时保持对关键操作的控制。AI产品Claude Code安全沙箱权限控制编程助手10 个信源在谈推荐理由:AI 编程助手的安全性是团队上生产的关键门槛,Anthropic 这次用沙箱和权限分层解决了自主执行的风险痛点,用 Claude Code 做自动化开发的团队值得仔细看。原文