全部 AI 动态 · AI 热点

5月28日

05:08

LangChain@LangChainAI

LangChain 发布了 Managed Deep Agents，专为需要长时间运行、使用工具、保持上下文并生成产物的智能体设计。该产品支持多种应用场景，包括客服与分类智能体、研究智能体、编程智能体、数据分析智能体和内部运营智能体。它解决了传统智能体在长周期任务中上下文丢失和工具调用不稳定的问题。团队可以基于此构建更可靠、更自主的自动化工作流。

AI产品 LangChain 智能体长周期任务自动化工具调用

推荐理由：做复杂自动化任务的团队终于有了专门的长周期智能体方案——LangChain 的 Managed Deep Agents 解决了上下文丢失和工具调用稳定性问题，做客服、研究、编程或数据分析的开发者可以直接用来构建更可靠的自主工作流。

原文

04:06

04:06OpenAI Blog（博客/媒体）

Warp 宣布与 OpenAI 深度合作，在其终端中集成 GPT-5.5 等模型，用于协调本地、云端和开源开发工作流中的编程智能体。这一举措旨在解决多环境协作中智能体调度和上下文管理的痛点，让开发者能更高效地利用 AI 辅助编程。Warp 的开源策略意味着更多开发者可以参与定制和扩展，可能改变终端 AI 助手的生态格局。

AI产品编程助手智能体 GPT-5.5 开源/仓库 Warp

推荐理由：Warp 用 GPT-5.5 打通了本地与云端的编程智能体协作，做跨环境开发的团队可以直接体验更流畅的 AI 辅助工作流，值得关注。

原文

03:06

@OpenAIDevs@OpenAIDevs

78°

OpenAI 与 ThriveHoldings 合作，基于 Codex 构建了 Tax AI 智能体，用于税务准备流程。当审核员修正错误时，Codex 能自动追踪失败原因、改进系统并在部署前测试变更。这展示了 AI 智能体在专业领域（如税务）中实现自我改进的潜力，减少了人工调试成本。该案例对金融、法律等需要高准确性的行业具有参考价值。

AI产品智能体 Codex 税务自动化自我改进 OpenAI

推荐理由：做税务或金融自动化的团队值得关注——Codex 让智能体在错误中自我迭代，省去大量人工调试时间，直接提升生产流程的可靠性。

原文

03:05

阿里通义 Qwen@Alibaba_Qwen

76°

阿里 Qwen 团队联合多家合作伙伴，在 TokenSpeed 推理引擎上对 Qwen3.5 模型进行极致优化，实现了 580 tokens/秒的推理速度，创下智能体工作负载的新纪录。该成果得益于 NVIDIA GPU、FlashAttention-4 优化以及 PyTorch 社区的支持。这一里程碑展示了开源大模型在推理性能上的巨大潜力，尤其适合对延迟敏感的智能体应用场景。PyTorch 官方博客已发布完整技术细节。

AI模型 Qwen3.5 推理优化 TokenSpeed 开源/仓库智能体

推荐理由：580 tps 意味着智能体应用可以几乎实时响应，做 LLM 推理优化或 Agent 开发的团队值得关注这个开源方案，可以直接参考 PyTorch 博客里的实现细节。

原文

03:04

Harrison Chase@hwchase17

LangChain 宣布其 Fleet 智能体现在内置了安全代码执行能力，可以在隔离的虚拟计算机中运行代码。这意味着智能体不仅能处理编程任务，还能执行数据分析、文件转换、运行 shell 命令等通用操作。该功能已进入公开测试阶段，通过 LangSmith Fleet 提供。对于需要自动化复杂工作流的团队来说，这大幅扩展了智能体的实用边界。

AI产品 LangChain Fleet 智能体代码执行安全沙箱

推荐理由：LangChain 给智能体加了个安全沙箱，做自动化工作流的团队可以直接在隔离环境里跑代码、分析数据，省去自己搭执行环境的麻烦。

原文

03:03

Harrison Chase@hwchase17

LangChain 发布了 Context Hub，一个用于管理智能体所需上下文文件（如 skills、AGENTS.md 等）的集中式平台。它支持存储、编辑、版本控制和检索 markdown 文件，并能作为虚拟文件系统在 deepagents 中使用。该工具旨在解决智能体上下文管理混乱的问题，提升团队协作效率。官方已发布视频教程和 GitHub 示例，方便开发者快速上手。

AI产品智能体上下文管理 LangChain 开源/仓库开发工具

推荐理由：做智能体开发的团队终于有了正经的上下文管理方案——Context Hub 解决了 skills 和 AGENTS.md 文件散落难维护的痛点，用 LangChain 的开发者可以直接集成试试。

原文

03:02

Harrison Chase@hwchase17

LangChain 发布 Deep Agents v0.6，核心新特性是 Delta Channels，大幅优化了智能体检查点的存储方式。对于长时间运行的智能体，Delta Channels 可将检查点存储量降低最多 100 倍，同时不牺牲可观测性和弹性。例如，一个 200 轮的编码智能体会话，使用前需要 5.3GB 存储，使用后仅需 129MB。这一改进解决了长任务智能体存储成本高、恢复慢的痛点，让开发者可以更高效地运行和调试复杂智能体。

AI产品智能体 LangChain Deep Agents 检查点存储优化

推荐理由：做长时间运行智能体的开发者终于不用为检查点存储发愁了——100 倍压缩意味着更低的成本和更快的恢复，建议直接升级试试。

原文

02:42

02:42Hugging Face: Blog（博客/媒体）

IBM与Artificial Analysis联合推出ITBench-AA，这是首个针对企业IT运维场景的智能体基准测试。测试涵盖事件响应、故障排查等真实任务，结果显示包括GPT-4、Claude在内的前沿模型平均得分低于50%。该基准揭示了当前AI智能体在处理复杂企业IT流程时的能力短板，为行业提供了可量化的评估标准。

AI模型智能体企业IT 基准测试 IBM 运维自动化

推荐理由：企业IT团队终于有了衡量AI智能体真实能力的标尺——前沿模型都不到50分，说明自动化运维还有很大提升空间，做IT运维或AI落地的建议点开看看差距在哪。

原文

01:55

elvis@omarsar0

一项新研究提出了 AgingBench，一个纵向可靠性基准，用于评估 AI 智能体在部署数月后的性能退化。研究将智能体“衰老”分为四种机制，包括压缩衰老和干扰衰老，并测量退化形式和修复目标。即使模型权重不变，智能体的有效状态也会因历史压缩、记忆检索、事实更新等持续变化。该基准揭示了部署后智能体可靠性随时间下降的关键问题，为工程化维护提供了方向。

论文智能体可靠性基准测试 AgingBench 工程维护

推荐理由：做智能体部署和运维的团队终于有了衡量长期可靠性的工具——AgingBench 能告诉你智能体何时、如何退化以及该修哪里，建议做 agentic 工程的开发者点开看看。

原文

01:55

rohanpaul_ai@rohanpaul_ai

83°

Cognition AI 完成新一轮融资，估值达 260 亿美元，融资额超 10 亿美元。其旗舰产品 Devin 的年化收入从 3700 万美元飙升至 4.92 亿美元，客户包括高盛和梅赛德斯-奔驰，表明 Devin 正从演示阶段进入生产环境。Devin 定位为自主初级工程师，能规划、测试和部署代码，并整合 OpenAI 和 Anthropic 的模型，形成模型无关的智能体层。去年，Cognition 还收购了编程初创公司 Windsurf 的剩余资产。

行业智能体编程助手融资 Devin Cognition AI

推荐理由：Devin 的收入暴涨证明智能体编程已从概念走向商业验证，做自动化开发工具的团队值得关注其模型无关架构的设计思路。

原文

01:01

rohanpaul_ai@rohanpaul_ai

76°

OpenAI与Thrive合作开发了一款自改进税务代理Tax AI，在30多家会计事务所处理了7000份纳税申报，节省约三分之一准备时间，准确率高达97%，吞吐量提升约50%。该系统的难点不在于处理W-2或1099表格，而在于处理混乱的K-1表格、租赁附表、笔记、电子表格、往年文件以及跨文档必须匹配的值。系统记录完整追踪：源文件、提取字段、引用、税务引擎映射、会计师更正和最终归档值。重复的更正成为评估目标，使Codex获得带有证据、代码、测试和通过条件的窄任务。巧妙之处在于不是简单用Codex编写修复，而是构建了一个产品环境，让从业者的重复更正成为有边界、可测试的工程任务。

AI产品税务AI 智能体 OpenAI Codex 自动化

推荐理由：税务处理团队终于有了靠谱的AI助手——Tax AI解决了K-1等复杂文档的痛点，准确率高达97%且能自我改进，做税务自动化的开发者可以直接参考其产品设计思路。

原文

00:53

Y Combinator@ycombinator

YC 在过去一年构建了内部智能体基础设施，包含超过 350 个工具、自改进技能循环和共享组织大脑。关键突破是给智能体无限制访问一个数据库，这改变了 AI 的应用方式。YC 认为我们已进入 AI 的个人电脑时刻，智能体将像个人电脑一样普及。该基础设施已解决财务团队的实际问题，并持续通过记录所有操作来提升智能。

行业智能体基础设施 YC 数据库企业AI

推荐理由：YC 的实战经验揭示了智能体基础设施落地的关键——给 AI 无限制数据库访问，做内部工具或企业 AI 的团队值得学习。

原文

00:50

airtap_ai@airtap_ai

Airtap 在 X 上发布了一个更强大的智能体工作流，核心模式为 read->write->act。智能体首先检查用户资料，然后将上下文转化为特定的开场白，最后将输出带入实时消息流中。这展示了通用生成与应用落地执行之间的区别。关键不在于生成文本，而是在正确的位置、用正确的上下文生成正确的文本。

AI产品智能体 Airtap AgentUX 上下文感知工作流

推荐理由：这个模式解决了 AI 智能体从通用生成到具体执行落地的痛点，做社交或消息类 AI 应用的开发者可以直接借鉴这个 read->write->act 流程。

原文

00:09

rohanpaul_ai@rohanpaul_ai

Trajectory 是一家由前 DeepMind、OpenAI 和 Meta 超级智能研究员创立的初创公司，近日推出了一个持续学习平台，并获得了 1500 万美元融资。该平台旨在解决当前 AI 产品“冻结软件”的问题——用户每天都在纠正模型错误，但这些纠正很少被用来更新模型。Trajectory 的核心单元是“轨迹”，它结合了智能体的操作和用户的接受、拒绝、编辑、重试或修复行为，使公司能够基于完整的失败链进行训练，同时改进模型权重、提示词和智能体工作流。持续学习被认为是 AI 的下一个重大飞跃，能让模型在部署后从实际使用中不断改进。

AI产品持续学习智能体模型部署 Trajectory 用户反馈

推荐理由：Trajectory 解决了 AI 产品部署后无法从用户反馈中持续学习的痛点，做 AI 产品落地的团队可以直接关注这个平台，看看如何利用用户纠错来提升模型能力。

原文

5月27日

23:17

AI Notkilleveryone@ai_zona

83°

AI 智能体生态面临治理危机：大家都在疯狂构建智能体，却无人监管其行为。一个开源 SDK 刚刚发布，旨在解决智能体的治理问题，提供标准化框架来监控、约束和协调智能体。该 SDK 允许开发者定义规则、审计行为并确保合规，有望修复当前混乱的智能体经济。

AI产品智能体开源/仓库治理 SDK AI 生态

推荐理由：智能体治理是当前 AI 落地的最大盲区，做多智能体系统或 AI 产品的团队可以直接用这个 SDK 来填补合规缺口，建议点开看看具体怎么实现。

原文

23:16

AI Notkilleveryone@ai_zona

AI Zona 宣布开源其背后的引擎 @aizonaai/adk，这是一个内置治理功能的 TypeScript 智能体框架。该框架包含 7 个包和 841 个测试，采用 MIT 许可证，可通过 npm 安装。与 LangGraph 或 CrewAI 不同，它强调内置治理能力，适合需要合规和可控性的智能体开发场景。

AI产品智能体开源/仓库 TypeScript 治理框架

推荐理由：对于需要治理和合规的 TypeScript 智能体开发者，这个框架提供了开箱即用的方案，值得一试。

原文

23:15

AI Notkilleveryone@ai_zona

72°

这篇文章指出了当前大多数 AI 智能体 SDK 存在的五个常见问题，并介绍了 ADK（Agent Development Kit）如何解决这些问题。这些问题包括：过度复杂的配置、缺乏可扩展性、对多模态支持不足、调试困难以及性能瓶颈。ADK 通过简化 API、提供模块化架构、原生多模态支持、内置调试工具和优化性能来应对这些挑战。对于正在构建或计划构建 AI 智能体的开发者来说，这篇文章提供了实用的改进方向。

AI产品智能体 SDK ADK 开发工具最佳实践

推荐理由：如果你正在用 AI 智能体 SDK 做开发，这 5 个坑大概率踩过——ADK 的解法直接且实用，做智能体应用的团队值得对照检查。

原文

23:14

AI Notkilleveryone@ai_zona

本文对比了三个开源 AI 智能体 SDK：LangGraph（Python，基于图的编排，Apache 2.0）、CrewAI（Python，基于角色的团队，open-core）和 ADK（TypeScript，治理型团队，MIT）。LangGraph 和 CrewAI 擅长任务编排，而 ADK 额外提供了治理层，包括审批门、信用计量和信任评分。ADK 可通过 npm 安装，适合需要安全管控的团队。

行业智能体 SDK/框架开源/仓库 LangGraph CrewAI ADK

推荐理由：做 AI 智能体编排的开发者可以快速了解三个 SDK 的核心差异——ADK 的治理层解决了团队协作中的安全和信任问题，适合企业级应用，值得一试。

原文

23:12

AI Notkilleveryone@ai_zona

AIZona 宣布其 V5 智能体平面验证套件实现 100% 通过率，涵盖 34 项测试、8 个领域，包括智能体 CRUD、工作区生命周期、配置管理、智能体间通信等关键功能。该平台是一个 AI 智能体市场和开发平台，支持构建、部署和编排多智能体团队，具备治理能力、计量计费和全面可观测性。这一里程碑表明 AIZona 在智能体系统的可靠性和成熟度上取得了显著进展。

AI产品智能体多智能体编排验证套件 AIZona 开发平台

推荐理由：多智能体编排的团队终于有了一个经过严格验证的平台——AIZona V5 的 34 项测试覆盖了从 CRUD 到持久化的全链路，做智能体应用开发的可以直接拿来用，省去自己搭验证套件的麻烦。

原文

22:59

LangChain@LangChainAI

LangChain 发布了 Deep Agents v0.6 版本，核心更新是引入了 Delta channels 功能。该功能通过只存储状态变化而非完整快照，将长运行智能体的检查点存储量从 5.3GB 降至 129MB，降幅高达 100 倍。这一改进并未牺牲可观测性或恢复能力，对于需要长时间运行的复杂智能体任务（如多轮编程会话）尤其有价值。开发者现在可以更高效地管理智能体状态，减少存储成本。

AI产品 LangChain Deep Agents 检查点存储 Delta channels 智能体

推荐理由：做长运行智能体开发的团队终于不用为检查点存储发愁了——存储量从 GB 级降到 MB 级，还保持可观测性，建议直接升级试试。

原文

22:47

berryxia@berryxia

一位用户发推感叹AI代理（Agent）的自主性已经“成精”，达到了他理想中的状态。推文表达了对这种高度自主、自然交互的AI代理的赞赏，认为其“真实令人舒服”。该推文引发了关于AI代理自主性和用户体验的讨论，反映了用户对更智能、更人性化AI交互的期待。

AI产品 AI代理自主性用户体验智能体交互设计

推荐理由：如果你正在探索AI代理的自主性边界，这条推文会让你看到用户对“成精”级Agent的真实感受——做AI产品的人值得看看用户到底想要什么。

原文

22:09

22:09OpenAI Blog（博客/媒体）

OpenAI 与 Thrive、Crete 合作，利用 Codex 构建了一个能自我改进的税务智能体。该智能体可自动完成税务申报、提升准确性并加速工作流程。通过持续学习和反馈机制，它能在处理税务数据时不断优化自身表现，减少人工干预。这一成果展示了 AI 在专业财务领域的应用潜力，尤其适合需要处理复杂税务规则的团队。

AI产品智能体 Codex 税务自动化工作流优化 OpenAI

推荐理由：税务团队终于有了实用的 AI 工具——Codex 驱动的智能体能自动申报并自我优化，做财务或税务自动化的开发者可以直接参考这个案例。

原文

21:57

Viking@vikingmute

AnySearch 是一个开源项目，提供 Skills 或 MCP 接口，允许用户将其集成到自己的 AI agent 中。作者表示已在 Codex 中使用并效果良好。该服务支持 Claude Desktop、Cursor、Windsurf、OpenClaw 等任何 MCP 客户端。项目代码托管在 GitHub 上，方便开发者直接使用或二次开发。

AI产品 MCP/工具开源/仓库搜索服务 Codex 智能体

推荐理由：做 agent 开发的团队可以直接用 AnySearch 的 MCP 服务增强搜索能力，省去自建搜索模块的麻烦，建议试试。

原文

21:53

Qdrant@qdrant_engine

本文讨论了构建一个智能、可靠且适合企业环境的AI智能体与普通智能体的本质区别。Gabriel Lebow将在Vector Space Day活动中分享生产就绪的智能体AI的关键架构思想，包括可扩展系统如何支持上下文感知推理、处理实时决策，以及在真实场景中保持稳定。活动门票可在luma.com/vsd-sf获取。

AI产品智能体企业级AI 架构设计实时决策 Vultr

推荐理由：企业级AI智能体落地是当前行业痛点，做智能体架构的开发者可以了解如何让系统在真实场景中可靠运行，值得关注。

原文

21:42

orange.ai@oran_ge

蚂蚁集团CEO韩歆毅分享了对Agent时代经济和商业的思考，认为传统互联网的流量和网络效应逻辑正在失效，新的竞争围绕Agent生态展开。他指出，Agent之间的信任需要通过结果交付来建立，而非靠直觉或名头。企业应聚焦增效提利润，而非降本裁员。Token将成为价值新载体，AI支付是未来最重要的基础设施之一。支付宝正大力押注AI支付，团队在保密状态下扩充，战略地位极高。

行业智能体 AI支付 Token 信任机制蚂蚁集团

推荐理由：韩歆毅把Agent时代的经济逻辑讲透了——从抢流量到建Agent生态，做AI支付和Agent信任体系的从业者值得一读，特别是支付宝的AI支付布局，能帮你理解巨头下一步怎么走。

原文

21:41

岚叔@lufzzliz

一位招聘者表示，现在面试中会考察候选人的vibe coding能力，即使用AI编程助手和智能体的思路与技巧。这反映了AI编程工具在开发流程中的重要性日益提升，未来可能成为技术岗位的标配考核内容。候选人需要展示如何高效利用AI agent来辅助编码，而不仅仅是传统的手写代码能力。

行业 vibe coding AI编程助手面试趋势智能体开发者技能

推荐理由：AI编程能力正从加分项变为硬门槛，做技术招聘或准备面试的开发者值得关注这一趋势，提前练习agent协作。

原文

19:45

阿里云 Alibaba Cloud@alibaba_cloud

阿里云宣布其Qwen3.7-Max模型已集成到Hermes Agent中，这是一个由NousResearch开发的智能体框架。该合作旨在提升智能体的推理和任务执行能力。Qwen3.7-Max作为阿里云最新的大模型，具备强大的多模态和推理性能。此举将加速智能体在复杂场景中的应用，开发者可直接体验。

AI产品智能体 Qwen3.7-Max Hermes Agent 阿里云 NousResearch

推荐理由：做智能体开发的团队可以关注——Qwen3.7-Max与Hermes Agent的结合意味着更强的推理和任务规划能力，建议直接上手试试。

原文

18:46

AI Will@FinanceYF5

Anthropic 在工程博客中提出，智能体的访问权限应与其能力同步演进，以避免潜在风险。他们通过沙箱机制在产品中设定参数，限制任何破坏性操作的影响范围。这一观点强调了智能体安全设计的重要性，为开发者提供了权限管理的实践思路。

AI产品智能体安全/权限沙箱机制 Anthropic 工程博客

推荐理由：做智能体安全或权限管理的开发者值得关注——Anthropic 的沙箱机制思路能直接帮你平衡能力与风险，建议点开看看具体实现。

原文

18:28

Harrison Chase@hwchase17

LangSmith Engine 是一个帮助开发者构建自优化循环的智能体系统。它通过观察自身输出、评估质量并利用反馈信号持续改进，使智能体的性能飞轮越转越快。关键功能包括自动分类用户反馈、每次修复附带在线评估防止退化、生成离线测试用例，以及根据用户偏好持续调优。创始人 Palash Shah 认为，LLM 评估的可靠性提升是这一系统流行的核心原因。目前该工具已获得大量采用，且使用越多效果越好。

AI产品智能体自优化循环 LangSmith 评估/反馈开发者工具

推荐理由：做智能体开发的团队终于有了一个能自动迭代优化的工具——LangSmith Engine 把反馈闭环做成了产品，省去手动调优的繁琐，建议正在构建复杂 Agent 的开发者点开看看。

原文

18:16

Ate-a-Pi@svpino

Santiago 指出，AI Agent 正在从根本上改变软件的使用方式：用户不再需要学习工具，只需告诉工具目标，工具会自动完成。他以 Spoki 为例，说明 AI 对话平台如何取代传统 CRM，将营销、销售和客户服务整合到一个连续流程中。这标志着传统工具将被逐一解构，用户与软件的交互方式将彻底转变。

AI产品智能体 CRM AI 对话平台工具变革 Spoki

推荐理由：Santiago 的观点直击 AI 时代软件设计的核心转变，做产品、CRM 或客户运营的团队值得一读，看完会重新思考工具的价值。

原文

17:59

Philipp Schmid@_philschmid

72°

DeepSWE 是一个新的软件工程/智能体基准测试，包含 113 个任务，覆盖 91 个仓库和 5 种编程语言。其评估框架 mini-swe-agent 为每个模型提供单一的 bash 工具和相同的系统指令，没有厂商自定义原语。评估提示比 SWE-Bench Pro 更短，但平均需要修改 5.5 倍以上的代码和 7 个文件，旨在模拟开发者与智能体对话的真实方式。初步结果显示，Claude Opus 比 Claude Code 高 10 个百分点，Gemini 3.1 Pro 比 Gemini CLI 高 20 个百分点。该基准强调指令遵循能力，可能对探索型模型不利。

AI模型 SWE 基准智能体编程助手 Claude Opus Gemini Pro

推荐理由：做 SWE 智能体评估或开发 AI 编程助手的团队，这个新基准更贴近真实开发场景，值得关注其设计思路和模型表现差异。

原文

17:53

Harrison Chase@hwchase17

Harrison Chase（LangChain 创始人）在 X 上推荐了一个名为 Quarq 的开源智能体项目，其核心设计围绕记忆与持续学习能力。该智能体能够记住历史交互并从中学习，从而在长期任务中表现更稳定。这一方向解决了当前 AI 智能体缺乏长期记忆、难以持续优化的痛点。对于构建需要长期交互或个性化服务的 AI 应用的开发者来说，Quarq 提供了一个值得探索的开源方案。

AI产品开源/仓库智能体记忆持续学习 Quarq

推荐理由：做长期交互 AI 应用的开发者终于有了一个原生支持记忆和持续学习的开源智能体，LangChain 创始人亲自推荐，值得一试。

原文

13:42

阿里云 Alibaba Cloud@alibaba_cloud

阿里云在Omdia的智能体AI市场雷达报告中被评为领导者，这是首个以智能体范式重构整个平台的云服务商。报告强调阿里云在每一层的全栈能力，从基础设施到应用层均围绕智能体设计。这一认可表明阿里云在AI智能体领域的战略布局和技术实力获得国际权威认可。

行业阿里云智能体云服务市场报告 AI平台

推荐理由：做AI智能体开发的团队可以关注阿里云的全栈能力，它可能是目前最完整的智能体云平台，值得深入研究其技术架构。

原文

11:59

阿里云 Alibaba Cloud@alibaba_cloud

阿里云推出Agent Infra，旨在解决智能体开发与部署中的五大痛点。该方案包含AgentRun（一站式构建与部署）、AgentTeams（安全的多智能体治理）、AgentLoop（可观测性与优化循环）和STAROps（自主AI运维）四个核心组件。通过简化工程复杂度，让开发者更专注于业务结果而非底层基础设施。这对于正在构建或管理AI智能体团队的开发者来说是一个值得关注的新工具。

AI产品阿里云智能体多智能体治理 AI运维云服务

推荐理由：阿里云这套Agent Infra直击多智能体协作的工程痛点，做AI应用开发的团队可以直接拿来简化部署和治理流程，建议点开看看具体怎么落地。

原文

11:16

LangChain@LangChainAI

精选

LangChain 发布 LangSmith Engine，旨在加速软件和智能体的自优化循环。该系统通过观察自身输出、评估并利用信号持续改进，而 LLM 的可靠性使评估步骤终于可行。LangSmith Engine 集成了自动分类反馈、在线评估器防止回归、离线评估加入测试套件，以及根据用户偏好持续调优等功能。该工具已获得大量采用，并随着使用时间增加而效果更好。

AI产品 LangSmith Engine 自优化循环智能体评估/反馈 LangChain

推荐理由：做智能体或自动化流程的开发者，LangSmith Engine 解决了自优化循环的落地难题——反馈自动处理、评估不退化，值得直接集成到你的工作流中。

原文

11:15

11:15Anthropic: Engineering（资讯）

精选72°

Anthropic 在博客中详细介绍了他们如何为 Claude 的不同产品（claude.ai、Claude Code、Cowork）设计安全边界，以控制智能体能力增长带来的潜在风险。文章从工程角度探讨了“爆炸半径”的概念，即智能体可能造成最大损害的范围，并分享了通过权限隔离、沙箱执行、行为监控等机制来限制这一半径的实践经验。这些方法旨在确保 Claude 在变得更强大时，仍能安全地服务于用户，避免意外或恶意使用导致的严重后果。对于关注 AI 安全与可靠性的开发者和团队，这篇文章提供了实用的工程思路。

AI产品 Claude AI 安全智能体沙箱权限控制

推荐理由：Anthropic 把智能体安全从概念落地到了工程实践，做 AI 产品安全架构的团队可以直接借鉴他们的权限隔离和沙箱方案，看完会对“如何安全地变强”有更具体的认知。

原文

11:08

LangChain@LangChainAI

LangChain 联合创始人 Harrison Chase 在 Day 2 主题演讲中展望了未来智能体的形态。他强调了“中断”（Interrupt）机制的重要性，认为智能体需要能够暂停、等待用户输入或外部事件，再继续执行任务。这一设计让智能体更可控、更可靠，适合复杂工作流。演讲还展示了 LangChain 平台对中断机制的支持，开发者可以按需调用。这对构建生产级 AI 应用的团队有直接参考价值。

AI产品智能体 LangChain 中断机制工作流生产级AI

推荐理由：Harrison Chase 点出了智能体从“自动执行”到“可控交互”的关键转变，做 AI 工作流和智能体应用的开发者值得看看这个方向。

原文

11:06

11:06Simon Willison’s Weblog（博客/媒体）

76°

微软的 Copilot Cowork 产品存在安全漏洞，允许攻击者通过提示注入实现数据外泄。该漏洞利用代理发送包含外部图片的邮件，当用户打开邮件时，图片会触发网络请求，从而泄露数据。由于 OneDrive 可生成预认证下载链接，攻击者能通过提示注入获取这些链接并下载文件。这凸显了智能体系统在防止数据泄露方面的持续挑战。

AI产品 Microsoft 安全漏洞提示注入数据泄露智能体

推荐理由：这个漏洞揭示了智能体系统设计中的核心安全痛点，使用 Microsoft Copilot 的团队需要立即关注并评估风险，建议检查相关配置并限制代理的邮件发送权限。

原文

11:04

Y Combinator@ycombinator

精选

Superset 是一款开源 IDE，专为开发者设计，支持并行运行数百个 AI 智能体。过去四个月，其周增长率达 30%，帮助工程师将 PR 提交效率提升 10 倍。该项目由 Y Combinator 支持，近日正式发布，受到社区关注。

AI产品开源/仓库 IDE 智能体并行计算 Superset

推荐理由：对于需要大规模并行执行 AI 任务的开发者，Superset 提供了一个开源 IDE 解决方案，能显著提升代码审查和 PR 效率，值得尝试。

原文

11:03

LangChain@LangChainAI

LangChain Academy 发布了 LangSmith Fleet Essentials 课程，教用户如何无需编写代码即可构建、使用和管理自己的智能体舰队（Agent Fleet），用于处理复杂的日常任务。该快速入门课程以构建和优化邮件智能体为例，帮助用户快速上手。课程免费注册，适合希望利用 AI 智能体自动化工作流的非技术用户和开发者。

AI产品 LangChain LangSmith 智能体零代码自动化

推荐理由：零代码构建智能体舰队，让非技术人员也能用 AI 自动化复杂任务，想提升工作效率的团队或个人可以直接免费报名学习。

原文