全部 AI 动态 · AI 热点

6月24日

07:36

Andrej Karpathy@karpathy

Andrej Karpathy提出LLM交互的第三次范式变革：Claude作为自包含、持久、异步的实体，通过工具集成、计算环境、内存和安全等底层工程，无缝融入人类团队。与第一代（网站）和第二代（App）不同，这一代让Claude像同事一样可对话，处理多种工作负载。Karpathy认为这是LLM UIUX的第三次重大重新设计。

行业 Claude Anthropic 智能体 AI协作企业AI

推荐理由：Karpathy说Claude以后不是网页也不是App，而是直接插进团队里当同事用，挺颠覆的，值得看看他的思路。

原文

07:32

berryxia@berryxia

Flowith旗下的Matrix产品接入了GLM-5.2模型，支持1M上下文长程执行。GLM-5.2擅长long-horizon coding和复杂多步执行，与Matrix的agentic workspace结合后，用户可构建产品、部门、工作流甚至整个agent公司。目前Matrix beta用户可领取1000万免费tokens（限时）。这标志着模型能力与执行环境的进一步融合。

AI产品 GLM-5.2 Flowith Matrix 智能体编程助手

推荐理由：Flowith把GLM-5.2接进Matrix，1M上下文让你直接用AI建公司，beta用户还能领1000万免费tokens。

原文

07:25

orange.ai@oran_ge

精选

Anthropic推出Claude Tag功能，允许用户将Claude以团队成员身份添加到Slack频道。用户可通过@Claude Tag委托任务，如总结讨论、回答问题或执行工作流。该功能基于频道上下文（channel based context），而非传统角色或团队上下文。目前已在Slack中可用。

AI产品 Claude Slack Anthropic 团队协作智能体

推荐理由：Anthropic在Slack里加了Claude Tag，@一下就能派活，像多了一个不摸鱼的同事，协作效率直接拉满。

原文

06:54

Aadit Sheth@aaditsh

Zeb Evans分享其公司在1000人团队中部署5000个智能体，人工与智能体比例达1:5，通过压缩上下文节省token。他强调AI能真正了解你的工作比更聪明的模型更有效，大多数公司用相同工具却因上下文量不同结果天差地别。团队通过Process Miner代理处理每天约10万条公司活动事件，从预处理、摘要和组织的上下文开始工作，而非每次从头搜索。

技巧智能体上下文 Agent token节省流程优化

推荐理由：Zeb Evans用5000个agent给1000人干活，重点不是模型多强而是上下文给够。他们自己公司内部就是这么干的，效率飞升。

原文

06:52

Google AI Developers@googleaidevs

Google 发布 Gemini Interactions API，用一个端点统一处理文本、多模态输入（图片、音频、视频）、工具调用（Function Calling）和托管智能体。该 API 旨在降低开发复杂度，帮助开发者从提示词快速过渡到生产部署。开发者可在 Google AI Studio 中获取详细指南。

AI产品 Gemini Interactions API Google 多模态智能体

推荐理由：Google 把文本、多模态、工具和智能体塞进一个 API 里，少折腾接口，直接跑。

原文

06:51

Google AI Developers@googleaidevs

精选73°

Google 在 Gemini API 中推出 Managed Agents 功能，开发者只需一个 prompt 即可创建自主 Agent。该功能自动提供安全临时 Linux 沙箱，无需基础设施配置。Agent 可自主规划、纠错、执行代码。通过 agents.md 和 skills.md 文件定义指令和工具，Agent 能一次 API 调用完成研究主题、生成音频对话、创作音乐和专辑封面等复杂任务。

AI产品 Gemini API Managed Agents Google 智能体

推荐理由：Google 出了 Managed Agents，零配置让 Agent 自动干活，一个 prompt 就能研究主题并做出一个广播节目，比手动搭基础设施省心太多了。

原文

06:24

cat@_catwu

Claude Tag 支持数百种自定义方式，官方分享了6种常见工作流。例如在事件响应中，将 Claude Tag 到 incident 线程后，它能自动拉取图表、diff 部署、找出根因并标记作者。团队可在线程内审批，Claude 自动打开修复、部署上线、监控指标恢复并关闭页面。这套流程节省了从发现问题到修复的跨团队沟通成本。

技巧 Claude Claude Tag 智能体工作流事件响应

推荐理由：想用 Claude 自动化你团队的 incident 响应流程吗？这篇官方指南给出了6个现成工作流模板，套上就能用。

原文

06:21

LangChain@LangChainAI

LangChain指出多数团队已有追踪能力，但缺乏持续改进Agent的系统。他们提出的Agent开发生命周期包含四个阶段：构建、测试、部署和监控。该流程以工程师人力速度扩展，无法规模化。团队需用更自动化的方法来迭代优化Agent性能。

技巧 LangChain Agent 智能体开发流程生命周期

推荐理由：LangChain总结了一套开发AI Agent的标准流程，帮你解决“只追踪不改进”的痛点，从构建到监控闭环。

原文

06:21

LangChain@LangChainAI

LangChain 推出了 LangSmith Engine，一个专门用于改进其他 AI Agent 的智能体。该引擎能从追踪数据中识别问题、聚类模式、自动起草修复方案，并提出评估建议以防止回归。它直接对接 LangSmith 的 tracing 项目，帮助开发者持续优化 agent 表现。

AI产品 LangSmith LangChain Agent 智能体

推荐理由：LangChain 出了新工具 Engine，能自动抓你 agent 的 bug、修 bug 还加测试，省心又省力。

原文

06:13

cat@_catwu

74°

Anthropic 发布新产品 Claude Tag，允许团队在 Slack 中将 Claude 添加为成员。用户可@Claude 并委派任务，Claude 会根据指令主动工作。内部版本已合并 65% 的产品 PR。这是 Anthropic 首个原生多玩家和主动式产品。

AI产品 Claude Anthropic Slack 智能体团队协作

推荐理由：Anthropic 出了 Claude Tag，你可以在 Slack 里 @Claude 让它干活，团队协作效率超爽。

原文

06:13

cat@_catwu

Anthropic 发布了 Claude Tag 的代理权限配置指南，帮助用户快速上手设置代理身份。指南详细介绍了如何为 Claude Tag 配置 agent 权限，包括关键决策说明和身份配置步骤。用户可以通过该指南了解代理权限的核心概念和操作流程。

技巧 Claude Tag 权限配置智能体 Anthropic

推荐理由：想给你的 Claude Tag 设置代理权限？这篇官方入门指南手把手教你配置，还有关键决策详解。

原文

06:12

Y Combinator@ycombinator

Reynold Xin在YC炉边对话中类比电动机与工厂：AI代理的初效不显著，但重新设计软件工程后可能带来数倍提升。他提出初创公司在构建AI原生产品上有结构优势，因为不受旧架构拖累。下一代基础设施应当从第一天起就为代理工作负载设计，轻量且可扩展。这一观点基于Databricks自身在数据和AI领域的实践经验。

行业 Databricks Reynold Xin 智能体 YC 软件工程

推荐理由：听Databricks联合创始人讲AI代理怎么改变软件开发逻辑，对创业公司尤其有启发。

原文

05:58

@OpenAIDevs@OpenAIDevs

精选76°

OpenAI 在 X 上总结了过去6个月为API推出的30多项更新。新模型包括 GPT-5.5、GPT-5.4 mini、GPT-5.4 nano、GPT-Realtime-2、GPT-Realtime-Whisper、GPT-Realtime-Translate 和 GPT-Image-2。Agent 构建模块新增 Agents SDK harness & sandbox、Skills in the Responses API、Server-side compaction、WebSocket mode 和 Hosted shell。此外还推出了 Admin API 增强、OpenAI CLI 以及 Models on Amazon Bedrock 等新功能。

AI产品 OpenAI GPT-5.5 GPT-5.4 mini API 智能体

推荐理由：搞API开发的朋友，OpenAI 这半年偷偷发了这么多新模型和Agent工具，GPT-5.5和实时翻译很实用，赶紧看看你漏了哪个。

原文

05:45

Claude@claudeai

72°

Claude Tag 是 Anthropic 为 Slack 集成推出的新功能，允许用户通过 @Claude 直接向它委派任务。团队可以设定 Claude 能访问的特定频道和工具，使其像正式成员一样协作。该功能旨在让成员把重复性工作交给 Claude 处理，从而专注其他事务。目前该功能已在 Twitter 上公开介绍。

AI产品 Claude Slack Claude Tag 智能体团队协作

推荐理由：Claude 现在能在 Slack 里当队友用了，@它就能派活，还能限制它能看到哪些频道，适合团队协作。

原文

05:30

Firecrawl@firecrawl_dev

Firecrawl 正式成为 Grok 的官方插件，用户可在 CLI 中让 Grok 智能体搜索、抓取并交互任意网页。该插件已上架 xAI 市场，提供每月 1000 次免费额度。这使 Grok 的 agent 能力扩展到实时网络数据访问，拓展了自动化工作流场景。

AI产品 Firecrawl Grok 智能体网页抓取 CLI

推荐理由：Firecrawl 成了 Grok 的官方插件，以后在命令行就能让智能体抓网页，还送每月1000次免费，挺实用。

原文

05:15

mem0@mem0ai

Mem0 发布了针对 Pi Code 的插件，实现持久化、作用域化、语义记忆。该插件能捕获重要信息，通过语义搜索，在 AI 代理需要时带回相关上下文。用户可通过 pi install npm:@mem0/pi-agent-plugin 安装。Pi Code 因此获得跨会话和项目的记忆能力。

AI产品 Mem0 Pi Code 智能体语义记忆插件

推荐理由：Pi Code 现在能记住你的项目上下文了，装上 Mem0 插件，跨会话也能找回之前的关键信息，写代码更连贯。

原文

04:18

LangChain@LangChainAI

精选

LangChain团队发布博客，介绍Deep Agents中的解释器功能。该方法在智能体循环内嵌入小型运行时，允许智能体动态编写和运行代码。这增强了智能体的灵活性和自主执行能力。博客由团队成员Hunt Lovell撰写，详细解释了实现原理。

AI产品 LangChain Deep Agents 解释器代码执行智能体

推荐理由：LangChain教你让智能体自己写代码执行，比传统工具调用更灵活，适合复杂任务。

原文

03:45

Alex Albert@alexalbert__

Claude 推出新功能 Claude Tag，使 Claude 能作为团队成员加入 Slack 频道。用户可以直接 @Claude 并在频道中委派任务，同时继续处理其他工作。该功能支持选择 Claude 可访问的频道和工具。目前已有 176 个点赞和 21543 次查看，显示社区高度关注。

AI产品 Claude Slack 智能体团队协作

推荐理由：Claude 能在 Slack 里被 @ 了，像同事一样帮你干活，省了来回切换的麻烦。

原文

03:27

AK@_akhaliq

Ling and Ring 2.6 技术报告发布，展示了在万亿参数规模下实现高效且即时的智能体智能。该模型专注于 agentic intelligence 领域，通过优化架构和推理机制降低延迟。报告详细介绍了其训练方法、性能基准以及与传统大模型的对比结果。具体数字和基准名称需查阅完整报告。

AI模型 Ling and Ring 智能体万亿参数规模推理模型

推荐理由：想了解万亿参数级别的智能体模型怎么做吗？Ling and Ring 2.6 报告给出了具体方案。

原文

02:26

Harrison Chase@hwchase17

精选

Harrison Chase 指出，发布第一版只是构建智能体工作的一小部分，更关键的是建立可重复的改进生命周期。该流程包括 5 步：1）Build——搭配 agent、tools、context、prompts 和 workflows 构建可用原型；2）Test——使用 evals 评估 agent 行为是否正确，而非仅输出类似内容；3）Deploy——将 agent 部署到生产环境；4）Monitor——通过 traces 追踪 agent 实际调用的工具、使用的上下文和失败点；5）Improve——从真实使用中学习，优化 prompts、tools、evals 和 agent 本身。Chase 将在 6 月 24 日的“The Agent Development Lifecycle 101”网络研讨会中详细讲解。

技巧 LangChain Agent 智能体工作流构建流程

推荐理由：LangChain 创始人手把手教你如何迭代改进智能体，从构建到上线再到优化，全是实操干货，适合所有做 AI Agent 的团队。

原文

02:25

LangChain@LangChainAI

精选

LangChain联合创始人Harrison Chase在X上分享了构建可靠Agent的关键：发布第一个版本只是小部分工作，需要可重复的生命周期。该周期包括5个步骤：1) Build，构建Agent、工具、上下文、提示词和工作流；2) Test，使用eval确保Agent做正确的事；3) Deploy，将Agent部署到生产环境；4) Monitor，通过追踪查看Agent调用了什么工具、用了什么上下文、在哪失败；5) Improve，根据实际使用改进提示词、工具、eval和Agent。他将于6月24日在网络研讨会上详细讲解此生命周期。

技巧 LangChain Harrison Chase 智能体开发周期 Agent

推荐理由：看看LangChain创始人怎么说Agent开发全流程——不只是搭出来，还要测试、部署、监控、迭代。五个步骤讲清楚怎么做出靠谱的Agent。

原文

02:24

elvis@omarsar0

Latitude是一个开源（MIT许可）的Agent可观测性工具。将Latitude指向Claude Code设置后，可实时查看token预算消耗情况。它能展示Agent的完整行为，捕获重复失败的任务，并显示频率和原因。用户无需离开编辑器即可直接修复这些问题。

AI产品 Latitude Claude Code 智能体可观测性

推荐理由：Claude Code吃token太猛？Latitude实时监控还能捉住重复失败的bug，免费开源，省心省钱！

原文

02:15

LangChain@LangChainAI

精选

LangChain 发布基于 Deep Agents 的循环工程方法，通过 self-harness 实现智能体自我改进。流程分三步：运行代理并观察失败（弱点挖掘）、提出 harness 改进方案、验证改进有效且无回归。论文见 arxiv.org/pdf/2606.09498，代码开源在 github.com/langchain-ai/d…。该方法可系统性提升 Agent 鲁棒性。

技巧 Deep Agents LangChain 智能体循环工程自我改进

推荐理由：LangChain 公布了一种让智能体自己找弱点并改进的循环方法，每一步都给了具体操作，想调优 Agent 的可以照着试试。

原文

01:36

LangChain@LangChainAI

LangSmith Fleet 提供了两种类型的 agent：General Purpose Chat 和 Specialized Agents。通用代理适合开放式对话，专用代理针对特定任务优化。LangChain 博客详细解释了这种设计是故意的，并给出了选择建议。

技巧 LangSmith LangChain 智能体通用聊天专用代理

推荐理由：LangChain 发了新博客，讲他们 Fleet 的两种 agent 怎么选，通用聊天还是专用任务，挺实用的。

原文

01:28

DeepLearning.AI@DeepLearningAI

DeepLearning.AI 发起为期7天的语音AI构建者挑战，目标是让AI编码代理仅在需要人类判断时请求帮助。参与者需要构建系统，使代理能在遇到自主解决不了的障碍时通过语音通知人类。挑战提供实时反馈和排行榜，优胜者将获得奖品。

技巧 DeepLearning.AI Voice AI 编程助手智能体

推荐理由：DeepLearning.AI 搞了个7天挑战，教你的AI编码代理只在必要时叫你帮忙，还有实时排行榜和奖品。

原文

01:26

elvis@omarsar0

Vercel推出Eve智能体框架，被类比为“智能体的Next.js”。该框架将工具、技能和评估全部以文件形式组织。基于TypeScript，开发者可快速构建AI智能体。文件即代码的设计降低了开发门槛，适合快速原型开发。

AI产品 Eve Vercel TypeScript 智能体智能体框架

推荐理由：Vercel出了个叫Eve的框架，像写Next.js写智能体。一切皆文件，用TypeScript，上手超快，值得一试。

原文

01:25

elvis@omarsar0

Vercel推出的eve agentic框架将所有组件（工具、技能、评估）以文件形式管理。它专为TypeScript开发者设计，能快速搭建智能体应用。该框架强调效率和简洁性，受到早期用户好评。

AI产品 eve Vercel TypeScript 智能体开发工具

推荐理由：Vercel这个eve框架把agent的工具、技能和评估全做成文件，用TypeScript就能快速上手，适合想搞智能体开发的程序员。

原文

01:06

techcrunch@Rebecca Bellan

Anthropic 发布了 Claude Tag，这是一个始终在线的 Slack 集成 AI 队友。该功能通过持续读取 Slack 消息来积累组织语境、机构知识和企业工作流。Claude Tag 旨在提升团队协作效率，同时为 Anthropic 捕获企业级数据以优化模型。与一次性问答不同，它基于长期上下文提供更精准的协助。

AI产品 Claude Anthropic Slack 企业协作智能体

推荐理由：Anthropic 让 Claude 彻底融入 Slack，持续学习你们公司内部的知识和流程，不只是回答问题，更像一个真队友。

原文

01:00

AWS Machine Learning Blog@Yuan Tian

这篇博客展示如何用Amazon Bedrock AgentCore构建一个对话式蛋白质研究助手。它通过自然语言解析提取结构化搜索参数，基于蛋白质语言模型进行向量相似性搜索。搜索结果会自动生成AI科学摘要，无需手动编码查询逻辑。整个过程涵盖查询解析、向量检索和摘要生成三步。

技巧 Amazon Bedrock 蛋白质研究智能体 RAG

推荐理由：想建一个能聊蛋白质研究的智能助手？这篇教程用Bedrock AgentCore教你搞定，自动解析问题、向量搜蛋白质，还能生成摘要。

原文

00:57

AK@_akhaliq

PlanBench-XL是一个新基准，专门评估LLM工具使用智能体在包含数千个工具的大型生态系统中的长程规划能力。该基准通过构建复杂任务链，要求智能体在工具选择、参数传递和结果融合中做出多步决策。初步测试中，GPT-4和Claude 3.5等主流模型在PlanBench-XL上的平均成功率低于40%，暴露了当前模型在规划深度和工具协调上的局限。

AI模型 PlanBench-XL LLM 智能体工具使用长程规划

推荐理由：想看看你用的LLM在多工具长流程场景下到底多靠谱？PlanBench-XL用上千个工具设计了真实任务链，测出来主流模型成功率不到40%，值得一测。

原文

00:54

Harrison Chase@hwchase17

精选

新论文提出Self-Harness方法，让智能体自动改进其harness。流程分三步：1/弱点挖掘，从执行轨迹中发现失败模式；2/harness提案，基于发现生成修改方案；3/提案验证，通过回归测试筛选有效提案。该方法基于DeepAgents框架，论文见arxiv.org/pdf/2606.09498。实验在多个基准上显示性能持续提升。

论文 Self-Harness DeepAgents LangChain 智能体论文

推荐理由：这篇论文让AI智能体自己学会改进工具链，三步流程从找问题到验证，基于DeepAgents框架，适合做Agent开发的人看看。

原文

00:33

Philipp Schmid@_philschmid

精选71°

这篇指南由 Google AI Studio 发布，帮助开发者上手 Gemini Interactions API。它通过 `previous_interaction_id` 实现对话链式衔接，演示了如何启用和处理 streaming 响应。指南还展示了执行本地函数调用的完整循环，并介绍了在远程沙箱中运行 Antigravity Agent 的方法。

技巧 Gemini Interactions API Google 智能体工具调用

推荐理由：Google 官方出的 Gemini 交互 API 教程，从 streaming 到 agent 沙箱都有代码示例，想写多轮工具调用可以看这个。

原文

00:27

Paul Couvert@itsPaulAi

trylatitude 是一款开源监控工具，可实时追踪 AI Agent 的 Token 消耗与成本。它兼容 Anthropic、OpenAI 等模型，支持监控 Agent 的失败和对话聚类。该工具帮助公司将 Agent 对话数据转化为可分析的资产。

AI产品 trylatitude Anthropic OpenAI 智能体开源工具

推荐理由：cesar.wtf 发了个开源工具 trylatitude，能精确看到你 AI agent 的 token 花在哪了，还兼容 Anthropic 和 OpenAI，比自己写日志好用多了。

原文

00:24

elvis@omarsar0

Prime Intellect发布博客，介绍在GLM-5模型上运行大规模强化学习（RL）所需的基础设施组件，包括数据管道、训练调度和分布式计算。文章详细解释了如何用1万亿token训练RL智能体，并开源部分工具链。该方法旨在降低自改进智能体的开发门槛。

技巧 GLM-5 Prime Intellect 强化学习智能体基础设施

推荐理由：想自己搞RL训练？这份Prime Intellect的博客手把手告诉你需要哪些基础设施，连GLM-5上的1T token训练都给你讲清楚了。

原文

6月23日

23:27

elvis@omarsar0

Microsoft Teams 上线了一个 AI 员工功能，它能自动执行工作流程而不仅仅是回答用户问题。该功能目前尚未公布正式名称或版本号，但已在 x.com 上有用户晒出相关截图。这个 AI 员工可以处理任务分配、日程安排等实际工作，标志着 Teams 从协作工具向自动化平台迈出一步。

AI产品 Microsoft Teams AI员工智能体

推荐理由：Teams 里的 AI 不再只是聊天，它能直接帮你干活，比如自动安排任务。

原文

23:26

歸藏(guizang.ai)@op7418

作者测试了 Seed 2.1 Pro，发现它在智能体和编程任务上的短板已被补上。该模型现在能更流畅地处理复杂代理场景。作者计划将 Seed 2.1 Pro 作为内容创作的主要模型。

AI模型 Seed 2.1 Pro 豆包智能体编程助手内容创作

推荐理由：豆包刚更新的 Seed 2.1 Pro，智能体和编程短板都补上了，做内容创作更顺手，可以试一下。

原文

23:26

量子位@十三

小鹏汽车、月之暗面Kimi和猎豹移动接入某云计算平台的AI算力，加速Agentic AI部署。该云平台为智能体应用提供弹性计算资源，支持高并发任务。行业普遍认为Agentic AI的商用拐点已经到来。

行业小鹏汽车 Kimi 猎豹移动云计算智能体

推荐理由：云计算一哥帮小鹏、Kimi和猎豹跑通Agentic AI，智能体应用加速落地，值得一看。

原文

23:00

量子位@十三

73°

字节跳动发布豆包2.1，其Agent可在18小时内自动完成芯片设计代码编写。在编程基准测试中，豆包2.1的表现比肩Opus 4.7。该版本强化了自主编程和长时任务执行能力，适用于复杂工程场景。

AI模型豆包2.1 字节跳动智能体芯片设计编程能力

推荐理由：豆包2.1的Agent太能干了，独自跑18小时写出芯片代码，编程水平还追上了Opus 4.7，做硬件的可以关注下。

原文

22:52

22:52Hugging Face: Blog（博客/媒体）

精选

IBM Research推出CUGA，一个轻量级智能体框架，提供24个可直接运行的工作示例。每个示例展示了如何用CUGA构建工具调用、多步推理和状态管理等功能。示例覆盖代码执行、数据库查询、网页浏览等场景，所有代码均在GitHub开源。开发者可通过这些示例快速上手CUGA，无需复杂配置即可构建生产级智能体应用。

技巧 CUGA 智能体 IBM Research 开源

推荐理由：IBM Research开源了CUGA框架，有24个现成示例，教你一步步构建能调用工具、多步推理的智能体。想快速上手Agent开发可以看看。

原文

17:33

Aravind Srinivas@AravSrinivas

精选

Perplexity 的 Agent API 新增了对智谱 AI 旗舰模型 GLM-5.2 的支持。GLM-5.2 是目前最强的开源模型之一，在长周期编码和智能体工作流上表现突出。它充分利用了 Perplexity 的 Search as Code 架构，用户通过一次 API 调用即可结合前沿推理与实时程序化搜索。该接口兼容 OpenAI 格式，且 Perplexity 提供第一方定价，无额外加价。

AI模型 GLM-5.2 Perplexity Agent API 开源模型智能体

推荐理由：Perplexity Agent API 现在能调用 GLM-5.2 了，这个模型编码和智能体任务很强，还能边推理边搜索，价格也透明。

原文