09:23arXiv: DeepSeek@Zhengxiong Luo, Mehtab Zafar, Dylan Wolff, Abhik Roychoudhury精选Code-Augur提出安全规范优先范式,将漏洞检测智能体的隐性假设显式化为安全规范,并通过运行时反证持续细化。在真实项目上,Code-Augur比Claude Mythos等专用模型检测到更多漏洞。它基于Sonnet和DeepSeek等通用LLM构建,发现了22个关键开源项目的新漏洞。该方法通过模糊测试触发断言,揭示漏洞或修正规范,提升检测可信度。论文Code-Augur漏洞检测智能体安全规范Sonnet推荐理由:这篇论文让AI漏洞检测不再黑箱——Code-Augur会生成明确的安全假设,再用模糊测试验证,已经在真实项目里挖出22个新漏洞,比专用模型还管用。原文
09:20arXiv: OpenAI@Costas Mylonas, Magda Foti, Andrea Pomarico, Matheus Duarte, Qian Zhang, Emmanouel Varvarigos精选PowerAgentBench-SS是一个针对电力系统稳态研究中工具使用智能体的基准框架。它使用IEEE 39节点系统进行直流热N-2预想事故搜索测试,评估智能体在工具调用、约束满足和验证方面的能力。实验对比了三个本地Ollama模型和一个OpenAI API代理,发现纯求解器评估不足以区分智能体性能,验证预算使用、类型强制转换、证据报告等行为是关键差异。该基准包含召回率、假安全惩罚、严重性遗憾、行动成本等风险敏感指标。论文PowerAgentBench-SS智能体电力系统基准工具使用10 个信源在谈推荐理由:搞电力系统智能体评估的可以看看这个,用IEEE 39节点系统测试大模型能不能真干活,不只看结果还看过程,挺实在的。原文
08:01LlamaIndex@llama_index精选关于智能体检索架构,团队在向量数据库和纯grep之间存在分歧。LlamaIndex工程主管George He将于6月29日分享在LlamaParse Index中构建检索架构的决策和死胡同。实际需要两者结合:语义搜索用于快速初筛,grep和文件读取用于top-k块切分不完整时的精确检索。活动注册见landing.llamaindex.ai/retrieval-harn…。行业向量数据库grepLlamaIndexLlamaParse智能体推荐理由:LlamaIndex的工程主管来讲检索架构实战,区分语义搜索和精确grep的时机,做智能体的别错过。原文
07:42宝玉@dotey该方法通过内循环每2小时检查新邮件,自动检索上下文生成草稿但不发送。用户修改草稿后,外循环根据修改记录优化写作Skill。这种自动化循环让Agent不断学习用户风格,提升后续草稿质量。技巧Loop Engineering智能体提示词工程自动化工作流推荐理由:这个工作流把自动写邮件草稿和自动学习你风格的动作做成循环,越来越懂你,适合常写邮件的人。原文
06:22Cloudflare Blog@Thomas Gauvin73°Cloudflare 发布了 Agents SDK,这是一个开放的运行时,允许任何代理框架构建其上。同时推出了 Flue 作为首个针对 Agents SDK 的框架。Cloudflare 还在仪表板中推出了代理功能。这些更新旨在简化在 Cloudflare 平台上构建和部署 AI 代理。AI产品CloudflareAgents SDKFlue代理框架智能体推荐理由:Cloudflare 把 Agents SDK 开放了,还出了个 Flue 框架,直接在仪表板就能用上代理,挺省事的。原文
05:56elvis@omarsar0精选Block 公司构建了名为 Builderbot 的内部 AI 系统,通过 orchestrator 代理协调多个代理跨代码库工作。工程师在 Slack 中标记 Builderbot,系统即可自动研究、规划并发布代码。该平台每天处理 200,000 次操作,每周合并 1,500 个拉取请求,占 Block 全部生产代码变更的 15%。原本需要数月的工作现在只需数天完成。AI产品BuilderbotBlock智能体代码生成编程助手5 个信源在谈推荐理由:Block 内部搞了个 Builderbot,每天自动处理 20 万次操作、合并 1500 个 PR,把几个月的工作缩短到几天,效率太猛了。原文
05:47Jerry Liu@jerryjliu0精选LlamaIndex 将 Agentic Search 从固定 RAG 管道升级为灵活 agent harness,供 AI 代理访问 keyword search(BM25、grep regex)和 semantic search 两类工具。当用户上传非结构化文档至 LlamaParse 时,系统自动暴露这些检索能力。公司将于6月30日举办网络研讨会,探索各工具在 agentic search 中的最佳用法。AI产品LlamaIndexLlamaParseagentic search智能体检索工具推荐理由:LlamaIndex 在 LlamaParse 里加了一套检索工具包,包括 BM25 和语义搜索,让 agent 能灵活调取。6月30日还有免费 webinar 讲架构细节,干搜索的可以看看。原文
05:15LangChain@LangChainAILangChain为Harbor添加了完整Dockerfile快照支持,可自动构建、缓存和复用任务环境快照。新增SDK profile支持,用户无需修改配置即可切换不同目标环境。同时实现了完整的exec/upload/download生命周期,使Harbor任务在不同沙箱提供商间行为一致。这些功能主要面向运行智能体评估的用户,相关文档已在docs.langchain.com/langsmith/sand…上线。AI产品LangChainHarborDockerfile智能体沙箱环境推荐理由:简单说,LangChain给Harbor加了三个实用功能,跑agent评估时能自动管理环境快照、切换配置,省去重复搭建的麻烦。原文
05:05lmarena.ai@lmarena_ai76°Agent Arena上线两周,新增10个模型。GLM-5.2 (Max)进入前十,以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一,但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。AI模型Agent ArenaGLM-5.2Claude Fable 5智能体OpenAI10 个信源在谈推荐理由:想看看最新智能体模型谁最强?Agent Arena更新了,GLM-5.2开源冲进前十,Claude Fable 5暂时下线,榜单有了新格局。原文
05:04@OpenAIDevs@OpenAIDevsOpenAI Devs上周与Women who Code(x)社区合作举办活动。参与者使用Codex构建了任务代理和个人指南等应用。活动展示了Codex在辅助编程和快速开发项目方面的实际能力。行业OpenAICodex智能体社区活动10 个信源在谈推荐理由:OpenAI和Women who Code(x)用Codex搞了个活动,实际展示了怎么用Codex快速搭建智能体和项目,很接地气。原文
04:38AWS Machine Learning Blog@Spencer MartensonAmazon Quick新增自主代理功能,可跨所有业务数据源持续自动分析。活动推送功能帮助用户优先处理重要工作。用户只需提出单个问题即可获取跨数据源的洞察。AI产品Amazon QuickAWS智能体数据洞察推荐理由:Amazon Quick现在有了自主代理,能自动跨数据源找答案,帮你每天省下几小时分析时间。原文
04:02Richard Socher@RichardSocherRichard Socher预测未来AI模型将按层级划分,Junior模型按小时或Token计费成本更低,承担基础工作、琐碎任务和低影响力决策。Senior前沿模型负责综合事实、做出重要决策并委派任务给Junior模型。人类将转型为管理者,管理自己的智能体组织。Recursive公司认为这一趋势有利。行业智能体AI分层Recursive模型成本推荐理由:Richard Socher说未来AI分成Junior和Senior,Junior便宜干杂活,Senior做决策,人类当经理。挺有意思的AI组织想法。原文
04:01lmarena.ai@lmarena_aiAgent Arena排行榜已上线,用于评估不同AI智能体的表现。该排行榜支持用户按开源模型或实验室筛选查看结果。用户可通过链接 arena.ai/leaderboard/ag… 直接访问。AI模型Agent Arena智能体开源模型实验室推荐理由:想对比开源智能体的表现?Agent Arena新排行榜支持按模型或实验室筛选,一目了然。原文
03:57Stanford AI Lab@StanfordAILab精选斯坦福AI实验室提出DeLM(Decentralized Language Models),这是一种无需中央协调器的多Agent协作框架。在SWE-bench Verified基准上,使用Gemini-3 Flash的DeLM实现了约10%的性能提升,同时推理成本降低超过一半。该方法在编程和多文档问答等Agent任务中表现出更高的准确性和经济性。AI模型DeLMGemini-3 FlashSWE-bench智能体斯坦福推荐理由:斯坦福搞了个新方法DeLM,不用中央协调器调度Agent,编程和多文档问答更准更便宜,SWE-bench提升10%成本减半,值得试试。原文
03:53LangChain@LangChainAILangChain 发布 Deep Agents 深度解析第三部分,聚焦 Delegation 委派功能。该工具让模型能自动规划复杂任务,并内置子智能体支持。来自 @SydneyRunkle 的 90 秒讲解视频详细演示了如何通过委派分工提升任务执行效率。技巧Deep AgentsLangChain智能体任务规划教程推荐理由:LangChain 出了个 Deep Agents 新视频,讲怎么用委派功能规划复杂任务,还自带子智能体支持,90 秒就讲明白。原文
03:29Genspark@genspark_aiGenspark 发布了 AgentBase 预览版,该工具能将数据转化为自定义数据库、仪表盘和内部系统。它兼容 Salesforce、HubSpot 等现有数据库,并能从收件箱、文件、应用和会议笔记中拉取数据。用户可通过一句话提示词构建 CRM、招聘系统、项目追踪器等,声称可替代 30 多个 SaaS 工具。AI产品GensparkAgentBaseSalesforceHubSpot智能体推荐理由:Genspark 出了个 AgentBase,能把你的 Salesforce 和 HubSpot 数据接进来,一句话就搭出 CRM 或项目系统,不用再买一堆 SaaS 了。原文
03:01LlamaIndex@llama_indexLlamaIndex CEO Jerry Liu在Databricks #DataAISummit上,与LangChain、CrewAI等公司创始人同台讨论Agentic Stack。该小组于上午11:30开始,聚焦智能体堆栈的构成、发展路径以及当智能体(而非人类)成为基础设施主要消费者时的变化。行业LlamaIndexJerry LiuLangChainCrewAIDatabricks智能体1 个信源在谈推荐理由:想了解AI智能体基础设施的未来方向?听LlamaIndex、LangChain、CrewAI创始人面对面聊聊他们的最新看法。原文
02:40DeepLearning.AI@DeepLearningAIDeepLearning.AI 与 VocalBridge 合作推出免费短课程 Voice for AI Agents and Applications,由 CEO Ashwyn 讲授。课程教你用最少代码为现有 AI 代理添加语音功能,无需修改 prompts、RAG pipeline 或工具。你将实现三种集成模式:应用内嵌入语音、将语音层叠到现有代理、以及将语音作为可调用工具用于外拨电话。课程现已开放免费报名。技巧DeepLearning.AIVocalBridge智能体语音教程推荐理由:想给你的 AI 代理加上语音但怕改代码?这门课讲三种集成方式,不用动原提示词和 RAG,几分钟就能上手。原文
02:36Aadit Sheth@aaditshAadit Shanbhag(@aaditsh)分享了他对vibecoding的态度转变,从怀疑到相信。他展示了Circle AI这款AI伙伴,能帮你描述梦想业务并自动构建、运行和增长数字业务。该推文获得6次点赞、1次转发和1320次查看。AI产品Circle AIvibecodingAadit Sh智能体编程助手推荐理由:Aadit说自己原来不信vibecoding能搞企业级生意,现在被Circle AI打动了,你可以看看它怎么用自然语言帮你搭业务。原文
02:14Jim Fan@jimfan76°Jim Fan团队推出ENPIRE系统,让8个Codex智能体操控机器人舰队自主进行物理实验。系统硬编码两层安全机制:硬运动学限制和扭矩限制夹爪,防止机器人超出安全范围。通过人类演示几分钟成功/失败样本,智能体编写计算机视觉代码生成分类器作为冻结奖励函数。定义Mean Robot Utilization(MRU)和Mean Token Utilization(MTU)监控资源,以Tokens-to-Success和Time-to-Success衡量效率。AI模型ENPIRECodex机器人智能体安全2 个信源在谈推荐理由:Jim Fan展示了ENPIRE,8个机器人靠Codex智能体自主做实验,安全机制和资源监控设计挺有意思。原文
01:49LangChain@LangChainAILangChain 推出 On-Call Copilot,这是 LangSmith Fleet 中的一个新代理模板。该模板可对每条告警进行分类,并自动调查代码和追踪数据中的根因。它还能管理工单、将事件路由到正确渠道,并从 runbook、升级规则和噪声模式中持续学习。这一模板旨在提升运维团队的事件响应效率。AI产品LangChainOn-Call CopilotLangSmith Fleet智能体自动化运维推荐理由:LangChain 新出的 On-Call Copilot 模板,能自动处理告警、查根因、管工单,运维团队可以省不少事。原文
01:43AWS Machine Learning Blog@Mai-Lan Tomsen BukovecAWS在纽约峰会上宣布系列创新,旨在让AI智能体能安全访问分散在数据湖、数据仓库、湖仓一体、数据库和流中的上下文。目前智能体的决策受限于无法获取完整背景信息。新功能使智能体可以获取未记录的机构知识,从而做出更可信的决策。这些创新将提升AI智能体的推理能力,支持大规模应用。AI产品AWSAI agents智能体数据集成上下文智能推荐理由:AWS发布了新功能,让AI智能体能安全调用散落各处的数据,真正理解上下文来做决策。想让你家智能体变聪明?看这个。原文
01:30marktechpost@Asif RazzaqVercel 开源了 Eve,这是一个 Apache-2.0 许可的 AI Agent 框架,目前处于公开预览阶段。每个 Agent 被定义为一个包含配置和能力的文件目录,内置了持久化执行、沙箱、审批、连接、通道和评估功能。开发者可使用 npx eve@latest init 快速搭建项目,并通过 vercel deploy 直接部署无需修改。AI模型EveVercel智能体开源模型编程助手推荐理由:Vercel 出了个开源 Agent 框架 Eve,把 Agent 做成文件目录,自带沙箱和评估,用 npx init 就能部署,挺省事的。原文
01:13elvis@omarsar0精选作者在使用/loops和/goal后强调,验证器和鲁棒护栏对编程智能体至关重要,不能依赖盲目的自主循环。rahul在长线程中提出7点经验:将fable+类模型视为English-to-code解释器;按风险大小管理diff,高风险区域用小diff;代码审查成为瓶颈,需优化linter、测试等;理解全栈和风险管理比理解每行代码更重要;维护多50%代码以换取5%性能提升可能值得。技巧coding agentsloopsgoal编程助手智能体推荐理由:推主分享了用loops和goal的经验,强调别盲目自动化,验证和护栏是关键,还引用了rahul的7条实用总结,对用智能体写代码的人很有参考价值。原文
01:11GitHub@github72°GitHub Copilot app 现已正式可用(GA),作为新的工作中心。用户可在此直接启动下一步任务、并行指挥多个智能体,并完成PR合并。该应用整合了编码协作与项目管理流程,支持在单一界面内完成从构思到部署的完整工作流。AI产品GitHub CopilotGitHub编程助手智能体推荐理由:GitHub把Copilot做成了独立App,能边写代码边指挥智能体干不同任务,最后直接在App里合PR,不用切窗口了。原文
01:09LangChain@LangChainAILangChain 推出 RemoteGraph 功能,实现部署间的直接交互。该功能内置 A2A 协议支持,无需额外配置即可跨部署通信。同时支持通过 MCP 协议与智能体交互。此更新由 LangChain 工程师 Victor Moreira 在 Managed Deep Agents 中演示。AI产品LangChainRemoteGraphA2A协议MCP协议智能体推荐理由:LangChain 出了个 RemoteGraph,能让你在不同部署之间互相调用,还自带 A2A 和 MCP 协议,玩智能体互操作更方便了。原文
00:41Paul Couvert@itsPaulAiMaineCoon 是一个支持无限时长实时交互的音视频 AI 模型,用户可即时与虚拟角色对话、接收回复。与多数仅支持文本或单次视频生成的 AI 不同,MaineCoon 实现了持续不间断的音视频在场感。该模型基于 Catnips AI 团队开发,目前已在官网 mainecoon.tech 开放体验。AI模型MaineCoon实时交互音视频模型智能体推荐理由:Catnips AI 新发布的 MaineCoon 模型能实时跟你对话、做表情,不像以前只能生成一段视频完事。原文
00:34LangChain@LangChainAI推文指出改进agent通常从手动审查过程开始:挖掘生产追踪、发现重复失败模式、比较运行并决定优先修复什么。6月24日,LangSmith Engine将展示如何帮助团队更快地闭环。该工具专为LangChain生态系统设计,通过自动化追踪分析和模式识别来减少手动工作。AI产品LangSmithLangChain智能体生产追踪推荐理由:想优化你的Agent?LangSmith Engine能帮你从混乱的追踪数据中快速定位失败模式,6月24日看看它怎么自动化审查循环。原文
00:33Vercel AI@vercel精选Vercel 发布了名为 eve 的 agent 框架,专为构建 AI 代理设计。eve 借鉴 Next.js 的开发模式,提供 agent/、instructions.md、tools/、skills/、sandbox/ 和 schedules/ 等目录结构。该框架旨在简化代理的部署与编排,类似于 Next.js 对 Web 应用的作用。AI产品VerceleveNext.js智能体推荐理由:Vercel 出了个叫 eve 的代理框架,说是“面向智能体的 Next.js”,想搭 AI 代理的可以看看。原文
00:33Vercel AI@vercelVercel 推出 Connect 功能,为应用和智能体提供短生命周期令牌,访问外部数据和系统时实现精确范围控制。令牌可自动过期,减少凭证泄露风险。支持与多种第三方服务集成,无需硬编码密钥。开发者可通过简单配置定义每个令牌的访问权限。AI产品VercelConnect智能体安全访问令牌推荐理由:Vercel 搞了个 Connect,给你的应用和 Agent 发短令牌,访问外部数据不用再怕泄露密钥了,权限还能精确到具体范围。原文
00:30elvis@omarsar0精选Vercel 推出了名为 eve 的智能体框架,内置持久执行、沙箱计算、人机审批、子代理与评估等关键功能。框架强调开箱即用的评估能力,并被誉为“像 Next.js 一样用于智能体”。该设计让开发者能快速构建可靠、可审核的 AI agent 应用。AI产品eveVercel智能体Agent框架开发工具推荐理由:Vercel 出了个 eve 框架,把持久执行、沙箱这些基础设施打包好了,和 Next.js 配起来用特别顺,想上手 agent 开发可以看看。原文
23:51Cloudflare Blog@Abe CarrylCloudflare发布了Cloudflare One stack,这是一个包含代理技能的库,可让AI代理规划、部署和管理Zero Trust环境。该库无需人工迁移通话即可自动完成部署流程。Agent利用内置知识库实现零接触配置,降低安全架构复杂度。目前该stack已开放给Cloudflare One用户使用。AI产品CloudflareZero Trust智能体部署AI安全推荐理由:Cloudflare搞了个新库,让AI代理能自己搭Zero Trust网络,省掉一堆手动配置的麻烦。原文
23:47AWS Machine Learning Blog@Madhu Parthasarathy精选71°Amazon Bedrock AgentCore新增多项能力,支持连接组织、网页和付费知识源,扩展智能体的知识范围。新工具帮助团队在生产环境中定位和修复问题,并实施随智能体能力提升自动扩展的控制机制。这些功能使开发者能更快构建更强大的智能体,并以规模化方式治理和持续改进。AI产品Amazon BedrockAgentCore智能体知识源持续学习1 个信源在谈推荐理由:AWS刚更新了Bedrock AgentCore,现在能连更多知识源,还加了监控和自动控制,做智能体更省心了。原文
23:47小互@imxiaohu精选Claude Code 团队强调 CLAUDE.md 越短越好,创始人自己的只有两行:提 PR 自动合并、提 PR 发审批频道。当系统提示“CLAUDE.md 几千 token”时,建议直接删掉重写。团队坚持做命令行而非 GUI,理由是模型进步太快,半年后 UI 可能过时。终端输出增加 verbose 模式兼顾清晰与详细。用 Claude Code 修 bug 时,通过翻日志、写小工具分析 heap dump,比人工更快找到内存泄漏。技巧Claude CodeCLAUDE.md提示词工程智能体推荐理由:Claude Code 团队亲述怎么用 AI 编程工具做减法,两行配置就让模型跑得更顺,看完想清空自己的文件。原文
23:39LangChain@LangChainAIAndrew Ng与LangChain创始人Harrison Chase在Interrupt活动上进行炉边对话,讨论智能体(agent)的发展方向。两人探讨了Agent在应用落地中的挑战,包括可靠性和编排问题。Harrison Chase分享了LangChain在构建Agent框架中的经验。Andrew Ng强调了Agent作为AI应用核心范式的重要性。行业Andrew NgHarrison ChaseLangChain智能体行业对话推荐理由:Andrew Ng和Harrison Chase聊智能体的未来,干货不少,适合关注Agent应用的开发者看。原文
23:38LangChain@LangChainAILangSmith LLM Gateway 在一个界面上整合了检测、调查和修复流程,减少工具切换和上下文丢失。策略事件与追踪数据并列显示,方便快速定位问题。用户可在构建智能体的同一表面完成安全治理。该功能旨在降低运维复杂度,提升AI应用的可观测性。AI产品LangSmithLLM GatewayLangChain智能体1 个信源在谈推荐理由:LangChain 做了个网关,把检测、查问题、修问题都放一个界面里了,不用再切好几个工具了。原文
23:38shao__meng@shao__meng精选72°Exa 发布 Exa Agent,一款托管式 Web Research Agent API,将前沿模型与自研搜索工具链打包成单一接口。系统采用任务分解与并行子 Agent 架构,适合 WideSearch 类大规模数据集调研。其 Model Fusion 技术根据任务动态混合使用高性能模型与性价比模型以优化成本。Exa Highlights 模型可将 token 用量最高削减 94%。在 WideSearch 基准上,Exa Agent 以 Row-F1 指标与 Perplexity Agent Pro、Opus 4.8 等对比,达到成本效率 Pareto 前沿。AI产品ExaExa AgentWeb Research模型融合智能体推荐理由:Exa Agent 把搜索和模型打包成一个 API,成本比 GPT-5.5 低一半,适合做深度调研和名单构建。原文
23:33IT之家(博客/媒体)精选领益智造在北京亦庄的具身智能机器人超级工厂近日规模投用,是京津冀首个万台级工厂。该工厂覆盖从核心零部件到整机组装的全链条制造,采用力觉+视觉双引导精密装配,换型时间小于15分钟。整机环形吊轨测试线可同时承载6-12台机器人,动态验证性能边界,较传统线体节能约25%。工厂全站自研MES、WMS、QMS系统,实现全流程数字化追溯,可在24小时内完成质量闭环优化。规划年产能逐步爬坡,预计2030年达到50万台套。行业领益智造具身智能机器人京津冀机器人智能体推荐理由:领益智造在北京开了家能年产50万台具身机器人的大工厂,从零件到整机全包,还有自动测试线,想了解机器人量产进展的可以看。原文
23:33Guillermo Rauch@rauchgVercel 宣布 Sandboxes 沙箱最长运行时间从之前延长至 24 小时。函数调用超时限制也从原来的几分钟提升到 30 分钟。这两项更新主要面向运行 AI agent 的开发场景,避免 agent 在任务中途因超时而中断。结合平台的持久化(persistence)功能,开发者可以构建无限状态的 agent 应用。AI产品VercelSandboxes智能体函数调用持久化推荐理由:Vercel 把 Sandboxes 的调用超时拉到 30 分钟、沙箱寿命延长到 24 小时,跑长时间 agent 任务再也不怕突然断掉,配合持久化甚至能做到无限状态,适合搞复杂 agent 的开发者。原文
23:32idoubi@idoubicc作者分享自己用FastClaw作为底层runtime和ShipAny作为上层工具搭建Agent基础设施的架构。通过FastClaw的dashboard,用户无需写代码即可快速创建Agent,可配置models、skills、files(soul/identity/bootstrap),过程只需几分钟。每个Agent自带Sandbox进行工具调用,配置好后可通过API在其它客户端调用,无需操心部署和扩容。典型用例weclaw.im用ShipAny套壳,一小时内上线。技巧FastClawShipAnyAgent智能体SaaS推荐理由:想快速搞一个Agent SaaS后端?试试FastClaw + ShipAny,不用写代码,几分钟配置好,一小时就能上线。原文