13:51Vercel AI@vercel精选Vercel 推出 AI SDK 7,专注于生产环境中 AI Agent 的开发与部署。新版本引入审批机制,允许控制 Agent 操作的执行流程;增加持久化功能,支持长期任务的恢复与状态保存;内置遥测系统,帮助开发者监控与调试 AI 工作流。该 SDK 7 还改进了可观测性和稳定性,为构建可靠 AI 平台提供基础设施。AI产品AI SDK 7VercelAgent智能体AI平台推荐理由:Vercel 的 AI SDK 7 直接帮你搞定 Agent 的持久化、审批和监控,做生产级 AI 应用省心很多。原文
11:19AI产品黄叔@PMbackttfuture精选黄叔分享了flomo Agent的10点使用心得,核心是降低记录前0.5秒的摩擦。他通过微信入口和Hermes Agent,并接入flomo MCP,将Hermes长期记忆同步到flomo。同时手动触发“保存到flomo”的内容,即时使用增强功能从flomo/Hermes记忆里检索相关笔记以帮助思考。他认为DeepSeek V4和王登科推动了flomo的发展,且Agent功能少反而更可信。最后提出flomo Agent+Codex/Hermes可形成“记忆-行动”双系统。技巧flomoAgent知识管理MCP/工具Hermes推荐理由:黄叔总结了flomo Agent的10条理解,比如用微信入口降低摩擦、打通记忆和行动,还提到了DeepSeek V4的作用。想用好flomo的可以看看。原文
19:03Qdrant@qdrant_engine精选Qdrant CTO Andrey Vasnetsov介绍了未来架构:存储和计算彻底分离,用户仅需查询本地设备上的索引片段,无需云端往返。Panel嘉宾来自cognee、Haystack_AI、llama_index、n8n_io,讨论了实际生产中Agent使用检索的问题——Agent有时不会主动调用检索,这比预期更严重。还指出若用同一模型生成评估数据集和作为评判者,相当于自己判自己作业。更多详情和完整录像在Qdrant YouTube频道。行业Qdrant向量数据库Agent检索LLM评估推荐理由:Qdrant CTO分享了未来架构怎么省掉云端来回;Panel聊了Agent不跑检索的坑,还有用同个模型判自己作业的槽点,做AI的都该看看。原文
11:20shao__meng@shao__meng精选72°OpenAI 官方博客数据显示,其内部员工使用 Codex Agent 的 output token 占比从 2025 年 8 月不足 10% 飙升至 2026 年 6 月的 99.8%。约 24% 的 Codex 请求对应人类需 1 小时以上工作,内部重度用户 P99 单日可并行运行 60+ 小时 agent。非开发者用户自 2025 年 8 月以来增长 137 倍。法务、财务部门超 85% 的 output token 已来自 Codex,非技术人员产出的工作中超过 1/4 是工程/编码类。行业CodexOpenAIAgent智能体企业AI应用10 个信源在谈推荐理由:OpenAI 自家员工几乎全用 Codex 干活了,律师、财务也一样。看看他们的内部数据,就知道未来工作方式怎么变。原文
03:11LangChain@LangChainAI精选LangChain JS 团队发布了 Agent 部署 Cookbook,包含全栈示例代码。这些示例展示了流式 UI、子代理、线程历史等功能,并附带生产环境持久化笔记。Cookbook 覆盖了多种常见 JS 框架,帮助开发者将本地 demo 的 Agent 真正部署到实际应用中。技巧LangChainAgentJavaScript全栈开发部署教程推荐理由:LangChain 出了个部署指南,教你用 JS 框架把 Agent 做成全栈应用,带流式 UI 和子代理,直接抄作业。原文
09:39Ate-a-Pi@svpino精选一位客户的token账单在过去几周内翻了三倍,原因是AI agent重构函数时需要执行读取文件、获取上下文、规划变更、编写代码、检查错误、更新测试、重试失败等十多个调用。每个调用都产生费用,agent越自主,费用越高。问题在于很难追踪谁在哪个模型上花了多少钱。解决方案是在agent和模型提供商之间部署一个网关,让所有请求先经过网关,从而获得可见性和控制力。Orq AI的API支持500多个模型和30多个提供商,可将廉价路由分配给便宜模型,昂贵模型留给复杂任务。技巧OrqAgenttoken模型网关成本控制推荐理由:你公司用AI agent写代码?小心token费用悄悄翻倍。作者亲测案例,推荐Orq网关统一管理模型调用,省心省钱。原文
02:26Harrison Chase@hwchase17精选Harrison Chase 指出,发布第一版只是构建智能体工作的一小部分,更关键的是建立可重复的改进生命周期。该流程包括 5 步:1)Build——搭配 agent、tools、context、prompts 和 workflows 构建可用原型;2)Test——使用 evals 评估 agent 行为是否正确,而非仅输出类似内容;3)Deploy——将 agent 部署到生产环境;4)Monitor——通过 traces 追踪 agent 实际调用的工具、使用的上下文和失败点;5)Improve——从真实使用中学习,优化 prompts、tools、evals 和 agent 本身。Chase 将在 6 月 24 日的“The Agent Development Lifecycle 101”网络研讨会中详细讲解。技巧LangChainAgent智能体工作流构建流程1 个信源在谈推荐理由:LangChain 创始人手把手教你如何迭代改进智能体,从构建到上线再到优化,全是实操干货,适合所有做 AI Agent 的团队。原文
02:25LangChain@LangChainAI精选LangChain联合创始人Harrison Chase在X上分享了构建可靠Agent的关键:发布第一个版本只是小部分工作,需要可重复的生命周期。该周期包括5个步骤:1) Build,构建Agent、工具、上下文、提示词和工作流;2) Test,使用eval确保Agent做正确的事;3) Deploy,将Agent部署到生产环境;4) Monitor,通过追踪查看Agent调用了什么工具、用了什么上下文、在哪失败;5) Improve,根据实际使用改进提示词、工具、eval和Agent。他将于6月24日在网络研讨会上详细讲解此生命周期。技巧LangChainHarrison Chase智能体开发周期Agent推荐理由:看看LangChain创始人怎么说Agent开发全流程——不只是搭出来,还要测试、部署、监控、迭代。五个步骤讲清楚怎么做出靠谱的Agent。原文
00:56宝玉@dotey精选文章将传统软件工程实践迁移到 AI Agent 开发中,强调需求分析时需给 Agent 充足上下文并反复对齐,系统设计时用 plan 模式拆分里程碑。代码审查建议先让 Agent 审查格式和逻辑,但人需兜底业务逻辑。自动化测试包括单元测试、集成测试和端到端测试,需与 CI 集成自动运行。灰度发布和 CI/CD 机制(如 feature flag、自动回滚)可减少线上不稳定。线上修复目前更现实的是 AI 辅助定位、人确认后再提交,而非全自动闭环。技巧Agent软件工程代码审查自动化测试CI/CD推荐理由:宝玉分享的实操经验:把传统软件工程的代码审查、测试覆盖、灰度发布等方法用到 AI Agent 上,能少写 bug、少修 bug,适合正在用 Agent 写代码的团队。原文
14:11Harrison Chase@hwchase17精选开发者 Saurabh 强调,Agent 必须有可观测性。他用 LangGraph 做编排,LangSmith 做追踪、评估和回归测试。如果无法解释 Agent 为何给出某个回答,那就只是 demo 而非架构。他建议通过 tracing 捕获 prompt 和工具调用的全部上下文。技巧LangGraphLangSmithAgent可观测性智能体推荐理由:如果你在用 LangGraph 做 agent,这招能帮你从 demo 变成可交付的系统——关键是 LangSmith 的 trace 和 eval。原文
12:08shao__meng@shao__meng精选Cua与Snorkel AI联合发布Cua-Bench基准,首个公开数据集聚焦KiCad电子设计自动化工具,包含25道专家编写的任务。测试显示最强模型GPT-5.5仅完全通过6道(24%),Claude Sonnet 4.5和Haiku 4.5各通过5道。关键发现:模型在编辑已有原理图方面表现尚可,但16道从零搭建任务全部失败。失败原因包括导航开销大(约84%)、操作粒度过细(约84%)和布线未完成(约72%),同时自我校验不可靠。AI模型Cua-BenchKiCadGPT-5.5Claude Sonnet 4.5Agent推荐理由:想看看AI Agent在专业软件上到底行不行?Cua-Bench用KiCad的25道真实任务给模型打分,最强的也只过了6道,从零建电路全挂。看完你就知道瓶颈在哪了。原文
10:25shao__meng@shao__meng精选Cursor 团队为训练 Composer 模型构建了始终运行的 Agent 舰队系统,本质是一个 Loop。主 Agent(Fleet Manager)运行在大型远程机器上,通过 SSH 连接数百台子 Agent 机器,收集状态并写入共享 inbox 文件。子 Agent 并行执行具体研究任务,主 Agent 每轮循环检查舰队健康状况,可主动控制进程。该系统基于 Cursor 此前公开的长运行 Agent 研究,使用 Cursor 自身产品实现状态共享和协调。AI模型CursorComposerAgent智能体编程助手5 个信源在谈推荐理由:Cursor 用自家产品造了数千 Agent 舰队原文
12:47Jerry Liu@jerryjliu0精选LlamaIndex创始人Jerry Liu指出,当前Agent通过MCP进行联邦搜索存在检索相关性差、速度慢、数据权重分配难、查询接口不统一等问题。他认为数据摄取、索引和检索层需要重大进步才能支撑Agent的复杂上下文获取。John Suh则提出公司应重建以统一时间线为基础的数据系统,整合可观测性、产品指标和文件变更,以实现AI驱动的100倍效率提升。行业AgentMCP/工具数据检索企业AILlamaIndex1 个信源在谈推荐理由:做Agent和RAG系统的开发者会看到当前架构的瓶颈在哪——MCP联邦搜索的检索相关性和速度问题亟待解决,而John Suh的“统一时间线”构想给企业数据基建提供了新方向,值得关注。原文
11:03歸藏(guizang.ai)@op7418精选作者归藏基于自己制作多个爆款 Skills 的真实经验,系统复盘了对 Skills 的理解。文章指出 Agent 不是聊天框,会放大人的能力差距,而 Skill 是普通用户用好 Agent 的关键中间层。详细阐述了如何设计、维护和分发一个好 Skill,以及 Skill 生态不能只是仓库列表,需要内容、产品、案例、反馈形成迭代飞轮。这不是概念科普,而是实践沉淀的判断,适合做 Agent、AI 工具、插件生态或想将专业经验可复用的读者。行业SkillsAgent插件生态产品设计归藏推荐理由:做 Agent 或插件生态的团队,这篇实战复盘能帮你避开 Skill 设计的坑——作者用真实案例告诉你为什么 Skill 不是仓库列表,而是用户能力放大器,值得点开对照自己的产品思路。原文
04:53rohanpaul_ai@rohanpaul_ai精选一篇新论文提出 AdaCoM,通过一个独立的小模型来清理和组织 Agent 的上下文,从而提升其在长任务中的表现,无需重新训练 Agent 本身。AdaCoM 在 Agent 每一步行动前,对任务历史进行重写、合并、剪枝或保留,然后让原始 Agent 基于清理后的上下文行动。与简单摘要不同,AdaCoM 能学习不同 Agent 需要何种上下文——强 Agent 可保留更多原始历史,弱 Agent 则需要更简洁的笔记。在网页搜索和深度研究任务上,AdaCoM 将平均搜索性能提升了 39%。论文AdaCoM上下文管理长任务Agent性能提升推荐理由:做长任务 Agent 开发的团队终于有了一个不碰模型权重就能提升性能的方案——AdaCoM 用一个小模型当上下文管家,实测搜索任务提升 39%,值得在项目里试试。原文
10:54宝玉@dotey精选Boris Cherny 分享了使用 Claude Opus 进行长时间自主运行的 5 条建议,强调 Agent 自行验证工作成果是避免浪费 Token 的关键。建议包括使用自动模式、动态工作流、/goal 或 /loop 指令、云端运行以及端到端自验证机制。这些技巧能帮助开发者让 AI Agent 持续工作数小时甚至数天,而无需人工干预。AI产品ClaudeAgent长时间运行自验证Token 优化推荐理由:长时间运行 Agent 的开发者常被 Token 浪费困扰,Boris 的 5 条建议直击痛点,尤其是自验证机制能大幅提升效率,做自动化工作流的团队值得一试。原文
10:23arXiv: Anthropic@Arquimedes Canedo, Grama Chethan精选当AI Agent调用API遇到验证错误时,传统做法返回自然语言错误描述,但Agent往往无法有效修复。该论文提出Self-Reflective API,在验证失败时返回机器可读的结构化恢复建议(recovery_feedback.suggestions[]),使Agent能直接修复请求并重试,无需外部推理。在30个样本、3个LLM、10个对抗任务的实验中,结构化建议在Anthropic模型上将任务完成率提升36.7-40个百分点,且每个成功token效率提升1.8-2.2倍。在gpt-4o-mini上效果不显著,但计费API的二次验证确认了模式。研究还发现了LLM基准测试中两类未记录的答案泄露问题,并开源了审计工具。论文AgentAPI设计错误恢复结构化反馈开源/仓库6 个信源在谈推荐理由:做Agent系统或API设计的开发者,这个方案直接解决了Agent调用API时频繁失败、需要人工介入的痛点——用结构化建议代替自然语言错误,让Agent自己就能修复重试,实测效果显著,建议直接参考其设计思路。原文
10:51Weaviate@weaviate_io精选Weaviate 指出,RAG Agent 在生产环境中的成败不取决于模型,而取决于系统设计的四个基础层:安全、检索、指令和护栏。许多团队止步于演示阶段,但实际部署中会出现幻觉、输出不一致、安全漏洞等问题。可靠的 Agent 需要在这些层面进行严格设计,才能从演示变成真正可信的系统。文章提供了免费技术指南,涵盖高级 RAG 技术、工作流架构和安全实践。AI产品RAGAgent系统设计安全生产部署推荐理由:做 RAG 应用的团队别再只盯着模型了——这篇把生产环境踩坑的四个关键层讲透了,建议做 Agent 架构的开发者点开看看,能省不少试错成本。原文
10:22宝玉@dotey精选Cursor 宣布为所有 Teams 用户增加使用额度,并推出 Premium 团队席位,提供 5 倍额度仅需 3 倍成本。博主重度使用 Cursor Agent 后给出好评,认为其 multitask 模式可并行多个后台任务,速度不错;支持灵活选择多种模型,不像 Codex 和 Claude Code 受限;Plan 模式详细且稳定。不足之处包括不支持 /goal 命令、无手机版,以及缺少类似 Codex 的 Chrome use + Computer use 调试功能。整体评价在常用 GUI Agent 中排名第二,仅次于 Codex App。AI产品CursorAgentGUI Agent编程助手额度升级4 个信源在谈推荐理由:Cursor 的 Agent 模式在并行任务和模型灵活性上表现突出,做自动化开发的团队可以关注这次额度升级,性价比不错。原文
15:17IT之家(博客/媒体)精选阿里云宣布开源百炼 CLI,专为 Agent 设计,支持一行命令接入 150 多款模型和十多款应用。该工具原生兼容 Claude Code、Qoder 等主流 AI Agent 框架,提供多模态模型调用、知识库检索、联网搜索、记忆管理等全套能力。开发者可通过 CLI 让 Agent 自动获取最新信息、处理本地文件、生成营销素材,或构建企业级智能助手。项目已在 GitHub 开源,降低了 Agent 开发与集成的门槛。AI产品阿里云百炼 CLIAgent开源/仓库模型调用推荐理由:百炼 CLI 解决了 Agent 开发中模型和应用集成繁琐的痛点,做 AI Agent 的开发者可以直接用一行命令接入阿里云全套能力,省去大量对接工作,建议试试。原文
10:45shao__meng@shao__meng精选Cursor 最新发布的开发者习惯报告基于全球最全面的 AI 编程数据集,揭示了 AI 如何深刻改变软件开发工作流。报告显示,开发者每周新增代码行从 2025 年初的约 3.6K 升至 2026 年 5 月的 8.6K,PR 规模显著增大,1000 行以上的大 PR 占比从 8% 升至 13.8%。Agent 单次会话的工具调用数在过去两个月上升约 30%,表明其处理更复杂任务的能力增强。AI 生成代码的留存率从约 76% 升至 81%,说明开发者更认可 AI 产出。同时,少数高水平用户获得了不成比例的巨大收益,P99 用户的 AI 代码行是中位数用户的 46 倍。AI产品CursorAI 编程开发者习惯代码产出Agent10 个信源在谈推荐理由:这份报告用数据证明了 AI 编程从辅助工具向自动化基础设施的转变,做 AI 编程工具或使用 Cursor 的开发者值得一看,能帮你理解行业趋势并调整自己的使用策略。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
17:47AI Will@FinanceYF5精选Anthropic提出了“Agentic Technical Debt”概念,指出AI项目中的技术债不是线性增长,而是复利式的。每个session的健忘、每次重新推导架构导致结果不一致,三个月后代码库每块单独看合理,合在一起却像精神分裂。解药是写一份CLAUDE.md作为“项目宪法”,每次开session先读再干。行业技术债AgentCLAUDE.mdAnthropic代码管理10 个信源在谈推荐理由:做AI Agent开发的团队终于有了一个可落地的债务管理工具——CLAUDE.md能终结session间的架构混乱,建议所有用Claude写代码的人立刻试试。原文
09:49LangChain@LangChainAI精选LangChain 发布了 LangSmith Context Hub,为团队和 Agent 提供统一的上下文存储、编辑、版本管理和检索能力。该工具支持技能、AGENTS.md 文件及其他 Markdown 文件的集中管理。视频详细解释了上下文的重要性、Context Hub 的优势以及如何在 Agent 中使用它。配套的 GitHub 示例代码可供开发者直接参考。AI产品LangSmithContext HubAgent上下文管理开源/仓库推荐理由:做 Agent 开发的团队终于有了正经的上下文管理方案——Context Hub 解决了多 Agent 协作时上下文碎片化的问题,建议做 AI 应用架构的开发者点开视频看看。原文
11:22LangChain@LangChainAI精选LangChain 的 Adam Łucek 分享了如何利用 Agent 运行时的 Trace 数据来构建生产级评估。Trace 数据记录了 Agent 的输入、输出、执行步骤和元数据,是优化 Agent 行为的关键。通过分析 Trace,可以识别低效环节,并用于构建更复杂的评估体系。文章介绍了两种利用 Trace 构建评估的具体方法,帮助团队快速迭代和提升 Agent 的可靠性。AI产品AgentTrace评估LangChain生产部署推荐理由:做 Agent 开发的团队终于有了可落地的评估方法论——Trace 数据不再是日志垃圾,而是构建评估的黄金矿,建议做生产级 Agent 的开发者点开看看具体怎么用。原文
13:42IT之家(博客/媒体)精选OpenClaw 的龙虾之父 Peter 开源了 skill-cleaner,一个专门为 AI 技能(Skill)做体检和优化的工具。他指出,很多开发者把技能描述写得太长,导致 Agent 调用时 token 消耗大、选择噪声多、延迟高。该工具能审计技能预算、检测重复技能、筛查未使用技能、优化描述长度,帮助开发者将技能描述精简到 40 词以内,从而提升 Agent 的调用准确性和降低运行成本。Peter 强调技能描述应像路标一样简洁,而详细的逻辑应放在代码中。AI产品开源/仓库技能优化token 节省AgentCodex5 个信源在谈推荐理由:AI 技能开发者常忽略描述过长带来的 token 浪费和 Agent 选择困难,这个开源工具直接帮你审计并优化,省成本又提效果,做 Agent 或 Codex 技能的建议立刻试试。原文
17:01marktechpost@Asif Razzaq精选70°微软研究院推出Webwright,一个终端原生的浏览器Agent框架,用可复用的Playwright脚本替代点击追踪式网页自动化。该框架仅用约1000行代码和三个模块的单Agent循环,在长程任务基准Odysseys上达到60.1%,远高于基础GPT-5.4的33.5%。在Online-Mind2Web上得分86.7%,是开源测试方案中AutoEval最高分。AI模型AgentMCP/工具开源/仓库大模型GPT推荐理由:微软开源了能跑60%的Web Agent框架原文
08:05LangChain@LangChainAI精选LangChain 发布新的流式协议,旨在解决 Agent 流式输出中工具、状态、子代理、媒体、中断和重连等复杂场景的解析难题。传统流式方案依赖原始事件流,开发者需手动解析大量日志,效率低下。新协议将 Agent 运行转化为类型化投影,应用可直接订阅,大幅降低开发复杂度。该协议特别适合需要实时渲染多模态 Agent 输出的应用场景。AI产品LangChain流式协议Agent开发者工具实时交互推荐理由:Agent 流式输出一直是个痛点,LangChain 的新协议让开发者不再需要手动解析原始事件流,做 Agent 应用或实时交互界面的团队可以直接用,省去大量底层工作。原文
10:48Viking@vikingmute精选AnySearch 是一个专为 AI Agent 设计的搜索引擎,聚合了金融、法律、学术、网络安全等专业领域的大规模数据,通过单一 API 即可访问。它解决了传统搜索引擎数据盲区大、结果未针对 Agent 优化的问题,支持结构化输出以减少 Token 浪费,并原生支持 API、MCP 与 Skill 接入。用户实测在查询显卡性能对比时,能提供具体参考链接和丰富信息。AnySearch 定位为 AI 时代的搜索基础设施,为 Agent 提供高质量信息门户。AI产品搜索 APIAgentAnySearch结构化输出MCP/工具推荐理由:做 Agent 开发的团队终于有了一个真正为 AI 优化的搜索 API,不用再忍受 Google 的盲区和 Token 浪费,建议直接接入试试。原文
07:57LangChain@LangChainAI精选LangSmith Sandboxes 正式发布,为 AI Agent 提供隔离的真实文件系统、Shell 和包管理器。该功能与 Deep Agents、Open SWE 及用户自有代码兼容,使用现有 API 密钥即可认证,无需额外构建或管理运行时。这解决了 Agent 在沙盒环境中执行复杂操作的安全与隔离问题,让开发者能更安全地测试和运行 Agent 代码。AI产品Agent沙盒LangSmith安全隔离开发者工具推荐理由:做 Agent 开发的团队终于有了开箱即用的隔离沙盒,不用自己搭环境就能安全跑代码,建议直接试试。原文
16:26Notion@NotionHQ精选Notion 发布了 Tools 功能,允许用户为自定义 Agent 添加代码逻辑,并部署为 Worker。这些工具提供类型化 I/O、可重复运行和日志记录,比 LLM 推理更可靠且成本更低。它们可以生成资产、查询内部数据或与其他应用交互,弥补了 Notion 和 MCP 单独无法覆盖的能力。该功能旨在提升 Agent 的确定性和可组合性,适合需要自动化工作流的团队。AI产品NotionAgentMCP/工具工作流自动化开发者工具推荐理由:Notion 用户终于可以给 Agent 写代码逻辑了——比纯 LLM 推理更稳更省 token,做自动化工作流的团队建议直接试试。原文