全部 AI 动态 · AI 热点

AITOP

6月24日

01:28

DeepLearning.AI@DeepLearningAI

DeepLearning.AI 发起为期7天的语音AI构建者挑战，目标是让AI编码代理仅在需要人类判断时请求帮助。参与者需要构建系统，使代理能在遇到自主解决不了的障碍时通过语音通知人类。挑战提供实时反馈和排行榜，优胜者将获得奖品。

技巧 DeepLearning.AI Voice AI 编程助手智能体

推荐理由：DeepLearning.AI 搞了个7天挑战，教你的AI编码代理只在必要时叫你帮忙，还有实时排行榜和奖品。

原文

01:26

elvis@omarsar0

Vercel推出Eve智能体框架，被类比为“智能体的Next.js”。该框架将工具、技能和评估全部以文件形式组织。基于TypeScript，开发者可快速构建AI智能体。文件即代码的设计降低了开发门槛，适合快速原型开发。

AI产品 Eve Vercel TypeScript 智能体智能体框架

推荐理由：Vercel出了个叫Eve的框架，像写Next.js写智能体。一切皆文件，用TypeScript，上手超快，值得一试。

原文

01:25

elvis@omarsar0

Vercel推出的eve agentic框架将所有组件（工具、技能、评估）以文件形式管理。它专为TypeScript开发者设计，能快速搭建智能体应用。该框架强调效率和简洁性，受到早期用户好评。

AI产品 eve Vercel TypeScript 智能体开发工具

推荐理由：Vercel这个eve框架把agent的工具、技能和评估全做成文件，用TypeScript就能快速上手，适合想搞智能体开发的程序员。

原文

00:57

AK@_akhaliq

PlanBench-XL是一个新基准，专门评估LLM工具使用智能体在包含数千个工具的大型生态系统中的长程规划能力。该基准通过构建复杂任务链，要求智能体在工具选择、参数传递和结果融合中做出多步决策。初步测试中，GPT-4和Claude 3.5等主流模型在PlanBench-XL上的平均成功率低于40%，暴露了当前模型在规划深度和工具协调上的局限。

AI模型 PlanBench-XL LLM 智能体工具使用长程规划

推荐理由：想看看你用的LLM在多工具长流程场景下到底多靠谱？PlanBench-XL用上千个工具设计了真实任务链，测出来主流模型成功率不到40%，值得一测。

原文

00:54

Harrison Chase@hwchase17

精选

新论文提出Self-Harness方法，让智能体自动改进其harness。流程分三步：1/弱点挖掘，从执行轨迹中发现失败模式；2/harness提案，基于发现生成修改方案；3/提案验证，通过回归测试筛选有效提案。该方法基于DeepAgents框架，论文见arxiv.org/pdf/2606.09498。实验在多个基准上显示性能持续提升。

论文 Self-Harness DeepAgents LangChain 智能体论文

推荐理由：这篇论文让AI智能体自己学会改进工具链，三步流程从找问题到验证，基于DeepAgents框架，适合做Agent开发的人看看。

原文

00:33

Philipp Schmid@_philschmid

精选71°

这篇指南由 Google AI Studio 发布，帮助开发者上手 Gemini Interactions API。它通过 `previous_interaction_id` 实现对话链式衔接，演示了如何启用和处理 streaming 响应。指南还展示了执行本地函数调用的完整循环，并介绍了在远程沙箱中运行 Antigravity Agent 的方法。

技巧 Gemini Interactions API Google 智能体工具调用

推荐理由：Google 官方出的 Gemini 交互 API 教程，从 streaming 到 agent 沙箱都有代码示例，想写多轮工具调用可以看这个。

原文

00:27

Paul Couvert@itsPaulAi

trylatitude 是一款开源监控工具，可实时追踪 AI Agent 的 Token 消耗与成本。它兼容 Anthropic、OpenAI 等模型，支持监控 Agent 的失败和对话聚类。该工具帮助公司将 Agent 对话数据转化为可分析的资产。

AI产品 trylatitude Anthropic OpenAI 智能体开源工具

推荐理由：cesar.wtf 发了个开源工具 trylatitude，能精确看到你 AI agent 的 token 花在哪了，还兼容 Anthropic 和 OpenAI，比自己写日志好用多了。

原文

00:24

elvis@omarsar0

Prime Intellect发布博客，介绍在GLM-5模型上运行大规模强化学习（RL）所需的基础设施组件，包括数据管道、训练调度和分布式计算。文章详细解释了如何用1万亿token训练RL智能体，并开源部分工具链。该方法旨在降低自改进智能体的开发门槛。

技巧 GLM-5 Prime Intellect 强化学习智能体基础设施

推荐理由：想自己搞RL训练？这份Prime Intellect的博客手把手告诉你需要哪些基础设施，连GLM-5上的1T token训练都给你讲清楚了。

原文

6月23日

23:27

elvis@omarsar0

Microsoft Teams 上线了一个 AI 员工功能，它能自动执行工作流程而不仅仅是回答用户问题。该功能目前尚未公布正式名称或版本号，但已在 x.com 上有用户晒出相关截图。这个 AI 员工可以处理任务分配、日程安排等实际工作，标志着 Teams 从协作工具向自动化平台迈出一步。

AI产品 Microsoft Teams AI员工智能体

推荐理由：Teams 里的 AI 不再只是聊天，它能直接帮你干活，比如自动安排任务。

原文

23:26

歸藏(guizang.ai)@op7418

作者测试了 Seed 2.1 Pro，发现它在智能体和编程任务上的短板已被补上。该模型现在能更流畅地处理复杂代理场景。作者计划将 Seed 2.1 Pro 作为内容创作的主要模型。

AI模型 Seed 2.1 Pro 豆包智能体编程助手内容创作

推荐理由：豆包刚更新的 Seed 2.1 Pro，智能体和编程短板都补上了，做内容创作更顺手，可以试一下。

原文

17:33

Aravind Srinivas@AravSrinivas

精选

Perplexity 的 Agent API 新增了对智谱 AI 旗舰模型 GLM-5.2 的支持。GLM-5.2 是目前最强的开源模型之一，在长周期编码和智能体工作流上表现突出。它充分利用了 Perplexity 的 Search as Code 架构，用户通过一次 API 调用即可结合前沿推理与实时程序化搜索。该接口兼容 OpenAI 格式，且 Perplexity 提供第一方定价，无额外加价。

AI模型 GLM-5.2 Perplexity Agent API 开源模型智能体

推荐理由：Perplexity Agent API 现在能调用 GLM-5.2 了，这个模型编码和智能体任务很强，还能边推理边搜索，价格也透明。

原文

14:04

OpenRouter@OpenRouterAI

精选73°

OpenRouter 宣布与 Coinbase 合作，将稳定币支付引入其平台。Coinbase 开发者平台宣布所有支付 API 已原生支持 agentic-enabled 模式。这意味着像 OpenRouter 这样的公司可以通过同一集成接口，同时接受来自人类用户和 AI agent 的稳定币付款。该功能无需额外开发，即开即用。

AI产品 OpenRouter Coinbase stablecoin 智能体支付

推荐理由：OpenRouter和Coinbase搞了个新支付方式，AI agent也能用稳定币付款了，挺有意思。

原文

13:59

Marc Andreessen@pmarca

Mozilla在Firefox的1000万行代码库上测试了Claude Mythos，成功修复了400多个安全漏洞，包括潜伏超过十年的bug。Mozilla杰出工程师Brian Grins透露，效果50%来自模型、50%来自设置。他分享了使用目标/循环模式、用验证器消灭假阳性以及向agent说善意的谎言等技巧。他还表示任何人都可以在一个下午内复制类似的bug-finding harness。

技巧 Claude Mythos Mozilla Firefox AI安全智能体

推荐理由：Mozilla工程师手把手教你用AI agent在百万行代码里挖漏洞，不用一下午就能搭出同样工具，还能避免假阳性。

原文

08:42

berryxia@berryxia

成峰开源的剪辑Skills已有2000+ GitHub Star，接入Anthropic的Codex后实现从口播素材到成片的自动化。Agent通过/剪口播命令生成带字幕视频，再通过/口播成片命令生成HTML分镜核对页，用户可直接反馈修改。Codex使用Computer Use自动调整时间线，最终由HyperFrames合成MP4。该流程将视频生产从手动执行转为流程编排。

技巧 Codex 剪辑Skills 智能体视频生成

推荐理由：用Codex加开源剪辑Skills，丢入口播素材和稿子，Agent直接帮你剪好带字幕的视频，还能自动做动画和分镜，省掉手动时间线操作。

原文

05:06

LangChain@LangChainAI

精选

Deep Agents v0.6 新增代码解释器，代理可在运行时调用工具。中间结果保留在模型上下文之外，仅传回相关输出。这减少了往返次数和 token 浪费。该版本由 LangChain 发布。

AI产品 Deep Agents LangChain 代码解释器智能体工具调用

推荐理由：Deep Agents v0.6 出代码解释器了！运行时调工具，中间结果不占上下文，省 token 还少跑几趟。看详情。

原文

04:26

Lenny Rachitsky@lennysan

78°

Anthropic工程师一年内代码输出量增长8倍，验证成为最大挑战，团队采用“bad vs sad”追踪框架区分不可恢复错误与可恢复痛点。工程师因独立工作出现孤独感，团队引入配对编程午餐缓解。Anthropic构建了统计用户对Claude Code说脏话频率的仪表盘，作为体验评估代理指标。产品机会来源于非编码用户的潜在需求，如用Claude Code分析MRI或恢复婚礼照片。团队从半年规划转为月度规划，并赋予成员“杀死无效流程”的权限。

行业 Claude Code Anthropic 编程助手智能体工程实践

推荐理由：Anthropic的Claude Code团队负责人分享了他们如何让工程师效率提升8倍、用脏话计数衡量体验，还提到非程序员用Claude Code做MRI分析等趣事，全是实战干货。

原文

03:24

elvis@omarsar0

精选

Sakana AI推出Fugu Ultra多智能体编排系统，通过单一模型API即可调用。在程序化地形生成（Three.js）测试中，Fugu Ultra一次生成效果与Fable和Mythos相当。该模型规避了出口管制风险，属于前沿能力级别。

AI模型 Sakana Fugu Ultra 智能体程序化生成

推荐理由：Sakana AI悄悄上了个Fugu Ultra，多智能体编排直接一个API搞定，性能追上Fable和Mythos，还不用怕出口管制，值得试试。

原文

03:03

LangChain@LangChainAI

LangChannel指出，随着智能体采用增长，团队需建立可重复的方法来安全、一致地构建多个生产级智能体。关键管理领域包括：成本与使用监控（✅ Cost and usage）、工具访问与审批（✅ Tool access and approvals）、人机协作工作流（✅ Human-in-the-loop workflows）、提示词/技能/上下文版本控制（✅ Prompt, skill, and context versioning）、跨团队可复用资产（✅ Reusable assets across teams）、以及生产智能体的监控与评估（✅ Monitoring and evals across production agents）。这些实践旨在解决规模部署时的一致性与可靠性问题。

技巧 LangChain 智能体 MCP/工具生产环境人机协作

推荐理由：LangChain总结了团队构建多个智能体的核心痛点：成本、权限、版本控制、监控等，全是实战干货，适合正在做 Agent 上线的团队参考。

原文

02:33

Logan Kilpatrick@OfficialLoganK

73°

Google AI Studio 发布 Interactions API 正式版（GA），该新 API 旨在让用户在同一界面内编排不同模型和智能体，已成为 AI Studio 新的默认 API。Interactions API 为智能体（Agents）新阶段奠定基础，开发者可更高效地构建跨模型工作流。

AI产品 Google AI Studio Interactions API MCP/工具智能体多模型协调

推荐理由：Google AI Studio 正式上线了 Interactions API，能让你在一个界面里调度不同模型和智能体，做复杂工作流更方便了

原文

02:09

Philipp Schmid@_philschmid

精选

Google 推出 Interactions API，提供单一 API 接口调用 Gemini 模型和智能体。该 API 包含隔离的远程 Linux 沙箱环境，支持异步后台运行的 background=True 参数。已集成图像生成 Nano Banana、音乐生成 Lyria 3，并预告未来支持视频生成 Omni。同时具备多模态工具调用与组合能力，以及专用编码技能。开发者可通过该 API 构建人类与智能体交互的应用。

AI产品 Interactions API Gemini Google 智能体多模态

推荐理由：Google 上线了 Interactions API，一个 API 就能调用 Gemini 模型和智能体，还有沙箱、图像音乐生成，异步运行很简单。

原文

02:06

Nous Research@NousResearch

Hermes Agent 现已集成 trycua，在 Windows 和 Linux 系统上支持计算机使用功能，此前该功能仅限 macOS。用户可以通过自然语言指令控制桌面操作。该更新由 NousResearch 发布，进一步扩大了代理的跨平台可用性。

AI产品 Hermes Agent trycua NousResearch 跨平台智能体

推荐理由：如果你用 Windows 或 Linux，现在也能用 Hermes Agent 控制电脑了，操作和 macOS 一样流畅。

原文

02:05

Nous Research@NousResearch

Nous Research 开发的智能体框架 Hermes Agent 在 GitHub 上获得 20 万颗星标。该项目基于开放权重模型构建可定制代理，支持多种工具调用和多步骤推理。里程碑反映出开发者社区对开源智能体框架的高度关注。

AI产品 Hermes Agent Nous Research 智能体 GitHub 开源项目

推荐理由：看看 Nous Research 搞的 Hermes Agent，GitHub 上 20 万星了，开源智能体框架里很猛的。

原文

00:55

LangChain@LangChainAI

LangChain 举办的 Interrupt 智能体会议所有 session 录像已上线，可通过 interrupt.langchain.com/recordings 观看。会议涵盖多智能体协作、工具使用等主题，涉及 LangGraph、LangSmith 等平台。目前该推文有 752 次查看和 1 次转发。

行业 LangChain Interrupt 智能体会议录像

推荐理由：LangChain 把 Interrupt 大会所有录像都放出来了，想学智能体开发的同学直接去看吧。

原文

00:50

LangChain@LangChainAI

精选

LangChain指出，AI代理执行沙箱需满足两个关键要求：启动速度接近无服务器函数（避免代理等待2分钟VM启动），以及具备完整机器状态（支持安装依赖、编辑文件和断点续传）。代理本质上是会话中的工作进程，而非无状态请求处理器。

技巧 LangChain 沙箱智能体无服务器函数

推荐理由：LangChain讲清楚了代理沙箱的设计关键——既要快得像无服务器函数，又要能像全功能机器一样保存状态。做AI代理的人该看看。

原文

00:24

AI产品黄叔@PMbackttfuture

推文作者使用成峰开发的Skill，结合Codex工具完成视频剪辑，整个流程只有最后在剪映中处理了约2分钟，其余全部由AI自动完成。作者认为这种丝滑体验标志着Agent剪辑时代的到来。该工作流展示了AI工具在视频创作中的实际应用，大幅减少人工操作。

技巧 Codex 剪映成峰Skill 视频生成智能体

推荐理由：有人用成峰的Skill和Codex，剪视频全程只手动处理了2分钟，超丝滑，你也能试试。

原文

6月22日

23:55

elvis@omarsar0

精选

该报告构建了五维分类法（对手方、载荷、交互状态、发现机制、模式灵活性），分析了九个活跃维护的开源智能体协议，包括MCP和A2A。报告发现每个智能体间协议都采用混合载荷与会话状态持久化组合，而去中心化发现机制仍属罕见。该研究映射了当前LLM agent通信层的标准化趋势，为选择通信层提供依据。论文地址：arxiv.org/abs/2606.19135。

论文 MCP A2A 智能体多智能体系统开源模型

推荐理由：如果你在选agent通信协议，这篇把MCP、A2A等9个协议的底层模式画清楚了，指出状态化会话是共识，去中心化发现还缺。

原文

18:50

腾讯混元 Tencent Hunyuan@TencentCloud

腾讯云宣布 EdgeOne Makers 将于2026年6月23日上线，这是一个在边缘构建和部署AI Agent的平台。直播注册现已开放，用户可通过链接预约。该平台旨在让开发者直接在边缘节点上构建、运行AI Agent，减少延迟。EdgeOne Makers 将提供边缘计算和AI Agent的集成能力。

AI产品 Tencent EdgeOne Makers EdgeOne 腾讯云智能体边缘计算

推荐理由：腾讯云要发新平台EdgeOne Makers，能在边缘直接跑AI Agent，6月23日直播，感兴趣可以提前注册看看。

原文

14:25

向阳乔木@vista8

海立老师（Harry Zhang）开源了第三本关于LangChain生态的书籍《Deep Agents in Action》。该书目前已有8个章节，涵盖Agent Harness、规划、上下文工程、子智能体、Skills和记忆等核心主题。面向中文开发者社区，可免费获取学习。

技巧 LangChain Deep Agents in Action 海立 Agent开发智能体

推荐理由：想学LangChain Agent开发？海立老师开源了第三本书，8章讲规划、子智能体等，直接收藏学。

原文

07:24

elvis@omarsar0

开发者 Omar 分享经验：他几乎不再手动提示或与代理对话，而是通过循环（loops）让代理自主执行。他花更多时间编写验证器（verifiers），提供文本、音频、图片等丰富指令来填补代理的不足。Guinness Chen 建议用户按住听写键随意讲10分钟，将碎片、例外、示例、氛围都喂给模型，利用语言模型擅长从语言中重构潜在意图的能力。这些方法改变了人与代理的交互方式，减少了手工编辑提示的负担。

技巧 agents loops verifiers 智能体工作流提示词工程

推荐理由：别手写提示词了，试试按住录音键讲十分钟，让代理自己干活。Omar 分享了用循环和验证器省力的实战技巧。

原文

02:54

Harrison Chase@hwchase17

Deep Agents 被描述为模型无关（model agnostic）且通用（general purpose）的 agent 工具。它被提出作为 Codex 和 Claude Code 的替代品。该工具不绑定特定模型后端，支持灵活切换。根据 x 上的讨论，Deep Agents 可能提供类似代码生成和 agent 执行能力。

AI产品 Deep Agents Codex Claude Code 智能体模型无关

推荐理由：如果你在用 Codex 或 Claude Code，可以试试 Deep Agents，它是模型无关的，兼容更多模型，更灵活。

原文

02:23

elvis@omarsar0

论文提出Human-on-the-Bridge方法，将人类判断前置到可复用的评估资产中，用于生产环境下的AI Agent评估。Agent作为行为系统需要跨轮推理、调用工具、保持上下文和遵循策略，现有方法如静态Benchmarks、LLM-as-judge、红队测试各有局限。该方法由专家在测试前策划可复用的评估智能，而非在循环中逐条审查输出。论文编号2606.16871，展示了提升可扩展性的具体路径。

论文智能体评估 Human-on-the-Bridge 可扩展评估

推荐理由：跑Agent生产评估的看过来，这篇把人类专家放在上游，评估资产能复用，不用每次输出都人工审，效率高多了。

原文

02:21

Greg Brockman@gdb

精选

Tom Osman展示了一个在Codex中运行的自动化循环，用于遍历应用所有功能并生成用户故事与预期行为。该流程维护一个单源电子表格跟踪功能状态，然后切换到测试每个用户故事并记录所有错误。最后修复逻辑或UX错误后，再次测试所有用户行为。这个循环能处理数百个用户故事，展示了Codex的自动化测试能力。

技巧 Codex Tom Osman 自动化测试工作流智能体

推荐理由：Tom Osman用Codex搞了个自动化循环，从生成用户故事到测试修复一条龙，省人工还管几百个功能，太实用了。

原文

6月21日

23:28

shao__meng@shao__meng

Greg Eisenberg和Theo Tabah在60分钟对谈中提出AI Native组织的三层架构：人、Agent和上下文。人退守两端负责战略与评审，Agent需满足Clear Goal、Skills、Tools、Context四要素才能自治。上下文层通过Capture-Curate-Store-Execute-Experience五阶段循环构建护城河。两个Live Demo展示成效：提案微站系统为LCA带来数百万美元收入，10分钟产品闭环生成高保真原型。Skill Chain（技能链）串接多个技能形成剧本，是对抗幻觉的关键机制。

技巧 AI Native 智能体 Skill Chain 工作流上下文

推荐理由：Greg和Theo用真实案例拆解了AI Native组织的落地方法，三层系统比“用ChatGPT”具体得多，还有百万美元收入证明。

原文

23:28

Harrison Chase@hwchase17

社区文章演示了如何借助Deep Agents框架构建一个类似Claude Code的编程智能体。文章特别提到GLM-5.2模型表现强劲，可作为该智能体的底层推理引擎。通过3个步骤即可完成部署，无需从头开发复杂Agent系统。

技巧 Deep Agents Claude Code GLM-5.2 智能体开源模型

推荐理由：教你用Deep Agents自己搭一个Claude Code同款智能体，还顺带体验GLM-5.2的威力，实操性很强。

原文

23:24

berryxia@berryxia

一位开发者花一小时整理了散落在各处的实践经验，形成了完整的Agentic Engineering Workflow。该工作流涵盖任务拆解、工具调用、记忆管理、错误恢复等环节，每一步都在真实项目中跑通。相比多数AI开发者还在手动写prompt，这套工作流已能教机器自主写prompt，强调差距在于工程方法而非模型能力。

技巧 Agentic Engineering Workflow 智能体工作流 AI编程

推荐理由：一位开发者把让AI像工程师一样自己写代码的工作流整理出来了，覆盖从拆任务到恢复错误的全流程，不是理论是真实跑通的路径。

原文

04:23

Harrison Chase@hwchase17

精选

Leve是一个文件系统优先的持久智能体框架，基于LangGraph构建。用户将智能体定义为文件目录结构，Leve编译该目录并运行智能体。该框架灵感来自Vercel的Eve项目，由@jit_infinity开发。

AI产品 Leve LangGraph 智能体框架文件系统

推荐理由：用目录描述智能体，Leve让LangGraph更直观。文件系统优先，持久运行，灵感来自Vercel的Eve。

原文

04:21

Jerry Liu@jerryjliu0

精选

LlamaIndex创始人Jerry Liu指出，智能体生成文档量增加，需要更好的原生文档格式。当前主要容器Markdown可读性强但缺乏丰富视觉输出，HTML视觉丰富但难以人工编辑且token密集。他提出理想格式应类似Google Docs或Word，支持人类和智能体协作编辑、版本控制和权限管理。他在Databricks演讲中提及，大量人类知识仍存储在PDF、PPT、Word中，需通过LlamaParse处理，同时创新智能体创建和协作信息的方式。

行业 Jerry Liu LlamaIndex 智能体文档格式 Markdown HTML

推荐理由：Jerry Liu聊了智能体文档格式的短板，Markdown和HTML都不够用，他提出像Google Docs那样的协作方案，做智能体应用的人可以看看。

原文

03:53

Browser Use@browser_use

GLM 5.2（纯文本模型）在网站设计任务中击败了 Fable 5。团队将 GLM 5.2 与 Browser Use v2 多模态 QA 子代理配对，让代理审查网站、发现 bug、判断美学，再向 GLM 发送修复指令。整个构建加质量保证的成本低于 0.75 美元。展示了纯文本模型通过智能协作在视觉任务上的潜力。

技巧 GLM 5.2 Browser Use v2 Fable 5 多模态智能体

推荐理由：GLM 5.2 纯文本模型竟然能设计网站，还打败了 Fable 5？搭配 Browser Use v2 多模态 QA 代理，成本不到 0.75 美元，太会玩了。

原文

03:00

Nous Research@NousResearch

Hermes Agent 推出 Blank Slate 设置模式，用户可从零开始构建代理，先选择 provider、model、文件操作和终端，再手动添加其他组件。之前只有 Quick 和 Full 两种预设模式。这一更新让高级用户能更灵活地配置自己的 AI 代理工具。

AI产品 Hermes Agent 智能体配置模式

推荐理由：Hermes Agent 现在让你从空白开始搭代理，只选 provider、模型、文件操作和终端，其他自己加，比预设模式更灵活。

原文

6月20日

23:55

AK@_akhaliq

研究人员发布了S-Agent，一个通过空间工具使用来增强空间推理能力的模型。S-Agent在虚拟环境中学习操作和使用空间工具，如旋转、移动物体等，以解决空间任务。该方法在空间智能基准测试中展现了显著的推理能力提升。

AI模型 S-Agent 推理模型空间智能智能体

推荐理由：S-Agent教AI通过操作空间工具来推理空间关系，跟传统只靠视觉的模型不一样，值得关注。

原文