全部 AI 动态 · AI 热点

AITOP

6月17日

03:43

LangChain@LangChainAI

LangSmith 新增代理拆解功能，可让开发者追踪 AI 代理在生产环境中的每一步决策。该功能帮助快速定位失败原因，并识别关键改进点。无需修改代码即可解析代理行为逻辑，实现持续优化。

AI产品 LangSmith LangChain 智能体可观测性生产环境

推荐理由：LangSmith 新功能让你像拆玩具一样拆解 AI 代理，哪步走错了门清，生产环境调试超省心。

原文

03:28

lmarena.ai@lmarena_ai

Agent Arena 是一个智能体性能排行榜，现已在 arena.ai/leaderboard/ag... 上线。用户可通过按开放模型或按实验室（lab）筛选来查看详细数据。该排行榜为不同智能体模型提供了直接的性能对比基准。

AI模型 Agent Arena 智能体排行榜基准测试开放模型

推荐理由：想比对比不同智能体模型？去Agent Arena排行榜，能按开放模型或实验室筛选，帮你找到合适的。

原文

03:05

OpenRouter@OpenRouterAI

精选

智谱AI的GLM-5.2模型已在OpenRouter平台上线。该模型拥有100万token的上下文窗口。它专为长周期、混乱的编码代理任务设计，能保持可靠性。

AI模型 GLM-5.2 Z.ai OpenRouter 超长上下文智能体

推荐理由：GLM-5.2在OpenRouter上架了，百万级上下文处理复杂编码任务，适合做长周期智能体。

原文

03:04

Satya Nadella@satyanadella

微软宣布 Copilot Cowork 在全球范围正式可用，新增多模型支持。该工具允许企业部署长期运行代理，处理复杂多步任务，并结合组织内部知识进行决策。目前已在 Microsoft 平台上开放。

AI产品 Copilot Cowork 微软多模型智能体企业应用

推荐理由：微软刚发布了 Copilot Cowork，支持多模型，能自动跑复杂任务，用你公司的数据干活。

原文

03:04

OpenRouter@OpenRouterAI

精选

Z.ai 发布 GLM-5.2 模型，采用 MIT 开源许可。该模型在编码和智能体任务上有显著提升，支持最长 1M 标记的上下文窗口。提供两种推理强度：GLM-5.2 (max) 追求极限性能，GLM-5.2 (high) 平衡性能与 token 效率。API 定价与 GLM-5.1 保持一致。

AI模型 GLM-5.2 Z.ai 开源模型编码助手智能体

推荐理由：Z.ai 新出的 GLM-5.2 模型，编码和智能体能力大幅增强，还有 1M 超大上下文，而且开源！API 价格没涨，值得试试。

原文

03:01

LangChain@LangChainAI

LangSmith Sandboxes 允许 agent 在响应前验证生成的代码是否运行。适用于构建编码助手、CI agent 或数据管道等需要操作真实文件的场景。该功能解决了 agent 仅能描述而不能实际执行的问题。

AI产品 LangSmith 智能体代码生成 CI工具数据管道

推荐理由：LangSmith 推出了 Sandboxes，让 agent 真正跑代码并验证结果。适合做编程助手、CI 自动化或数据处理。

原文

03:01

LangChain@LangChainAI

LangChain 推出 LangSmith LLM Gateway，将智能体治理直接嵌入开发平台。该网关允许开发者在构建、观察和评估智能体的同一界面中执行安全规则，无需事后额外配置。它支持对 LangChain 智能体进行实时治理，确保合规与安全。

AI产品 LangChain LangSmith LLM Gateway 智能体治理智能体

推荐理由：想给智能体加治理规则？LangChain 新出的 LLM Gateway 直接在开发平台里搞定了，不用再另外折腾。

原文

03:01

lmarena.ai@lmarena_ai

精选72°

GLM-5.2 (Max) 在 Agent Arena 排行榜上排名第10，得分接近 Claude-Opus-4.8（非推理模式）。它成为排名最高的开源模型，较去年发布的 GLM-5.1 从第13位上升3位。该模型在数百万真实长程任务上评测，可调用网页搜索、文件系统和终端工具。GLM-5.2 (Max) 输入/输出定价保持为每百万 token 1.4/4.4 美元，支持1M上下文窗口，权重采用 MIT 许可开源。

AI模型 GLM-5.2 Zai_org Agent Arena 开源模型智能体

推荐理由：Zai_org 发了 GLM-5.2，在 Agent 任务榜单上排第10，碾压所有开源模型，而且价格没变。跑复杂工作流、调工具效果明显进步。

原文

02:58

Arthur Mensch@arthurmensch

Arthur Mensch宣布与全球公司和政府合作，使用Forge工具确保AI系统远离外部控制并提升效率。Forge基于记录的人机交互持续训练模型，每次模型发布都会迭代改进。该工具强调成本结构优化，通过高效训练实现可控性。

AI产品 Forge 微调智能体 AI安全

推荐理由：Forge让你用真实人机交互数据持续微调模型，成本低、可控性高，适合企业和政府部署AI。

原文

02:43

Google Gemini App@GeminiApp

Google Gemini App 推出 Daily Brief 功能，可在每天早晨自动为你整理日程。用户可以通过点按 👍或 👎 直接反馈，让 Gemini 更了解你的偏好。你也可以通过“与 Gemini 聊天”进一步调整简报内容。点击简报条目下的‘更多’可查看 Gemini 引用的具体邮件、聊天或 Google 日历事件。这些技巧能帮你更好地利用 Daily Brief 管理日常事务。

技巧 Gemini Daily Brief 智能体提示词工程

推荐理由：Google Gemini 的 Daily Brief 能自动汇总你的日程、邮件和聊天记录，早上看一眼就心里有数。三个小技巧教你调教它，让 AI 越来越懂你。

原文

02:37

LlamaIndex@llama_index

精选

LlamaIndex 团队为 Claude 构建了自定义 PDF 解析技能，利用真实使用痕迹发现 AI agent 反复读取同一文件、不必要截图等浪费步骤。修复后，每问题成本降低 37%，回答质量全面提升且浪费步骤减少。该案例展示了如何通过分析 agent 痕迹来定位并修复性能瓶颈。

技巧 Claude LlamaIndex 智能体 PDF 解析成本优化

推荐理由：LlamaIndex 手把手教你用 traces 优化 Claude 的 PDF 解析，成本直降 37%，答案还更准了，值得一试。

原文

01:59

lmarena.ai@lmarena_ai

Agent Arena 在其官方博客中介绍了用于智能体评估的因果追踪方法论。该方法可帮助研究人员分析智能体决策背后的因果链路。Agent Arena 平台本身支持多种智能体基准测试。

AI模型 Agent Arena 智能体评估基准因果追踪

推荐理由：Agent Arena 的因果追踪方法能帮你搞懂智能体为什么那么做，比单纯看分数更有用。

原文

01:58

Jim Fan@jimfan

精选72°

ENPIRE赋予8个Codex智能体机器人集群和GPU资源，自主完成高精度物理任务。系统能独立绑扎带、整理细针、安装GPU。实验显示8台机器人并行探索比少量效率显著提升。NVIDIA GEAR实验室已实现机器人彻夜自主改进。团队计划开源全部代码。

AI产品 ENPIRE Codex NVIDIA 智能体机器人

推荐理由：NVIDIA让8个AI智能体自己控制机器人干活，还能绑扎带装显卡，而且要开源，你可以在家搭机器人实验室了！

原文

01:57

Jim Fan@jimfan

76°

NVIDIA联合CMU和伯克利推出ENPIRE系统，让AI智能体完全自主控制真实机器人循环，包括重置环境、搜索文献、实现想法、训练部署、自我验证等步骤。该系统在整理别针、安装GPU、绑扎带等灵巧任务上达到99%成功率。机器人通过自提出启发式成功信号进行爬坡优化，无需人类介入。

AI模型 ENPIRE NVIDIA 机器人智能体自主循环

推荐理由：NVIDIA搞了个ENPIRE，让AI自己操控机器人反复试错，真实任务成功率干到99%，连GPU都能自己插。

原文

01:31

lmarena.ai@lmarena_ai

精选

MiniMax M3 在全新 Agent Arena 排行榜上位列第18，是排名第5的开源模型。相比 M2.7，M3 从第22名升至第18名，主要改进是任务成功确认和 bash 错误恢复能力。工具幻觉保持低位，与最佳模型并列第一。排行榜基于30万+任务、200万+工具调用和4000万行代码的代理会话评估。

AI模型 MiniMax M3 Agent Arena 开源模型智能体

推荐理由：MiniMax M3 在 Agent Arena 上排名上升了4位，是最强开源模型之一，能写代码、做PPT、查资料，幻觉控制也顶级。

原文

00:58

Jerry Liu@jerryjliu0

Jerry Liu 认为代码代理（如 Cursor）是计算机使用和知识工作的好代表，但 Cursor 在产品体验上仍有不足：长期不支持上传 PDF，需要更广的数据源接口（CRM、ERP 等），以及更好的非结构化文档编辑（如 Word、Excel）。Riley Brown 指出 Cursor 正成为 Codex 和 Claude Desktop 的竞争者，其内置浏览器和 Composer 模型性能优秀，但需完善文档渲染功能。

AI产品 Cursor Claude Code Codex 编程助手智能体

推荐理由：两位 AI 资深用户聊 Cursor 的现状和短板，说它离替代 Claude Desktop 就差文档支持了。非开发者可以看看它能不能当你的通用工作台。

原文

00:58

LangChain@LangChainAI

LangChain 发布 Deep Agents 深度解析第二部分，讲解上下文管理关键能力。Sydney Runkle 在不到2分钟视频中演示如何控制 Agent 长期记忆与状态。该方法可让 Deep Agents 在连续多轮对话中保持一致性，避免遗忘。

技巧 LangChain Deep Agents 智能体上下文管理提示词工程

推荐理由：如果你在用 LangChain 做智能体，这个2分钟视频教你怎么管理上下文，让 Agent 不跑偏。

原文

00:58

LangChain@LangChainAI

LangSmith Fleet 新增两种智能体类型：General Purpose Chat 和 Specialized Agents。LangChain 的 @BraceSproul 解释了为何提供两种选择以及各自适用场景。General Purpose Chat 适合日常对话，Specialized Agents 针对特定任务优化。这一设计让开发者根据需求灵活选用。

AI产品 LangSmith General Purpose Chat Specialized Agents 智能体

推荐理由：LangChain 的 Fleet 现在有两种智能体可选，通用聊天聊天专用，看需求挑就行，开发者福音。

原文

00:28

elvis@omarsar0

mattpocockuk 发布了新技能 /teach skill，功能类似于之前已有的 /learn skill。该技能在 Hermes Agent 的 academy 中免费开放使用，用户可通过 AI agent 进行互动学习。实验室当前保持免费，鼓励用户尝试。

技巧 Hermes Agent teach skill learn skill 智能体 AI学习

推荐理由：mattpocockuk 推了一个新教学技能，和 /learn skill 很像，在 Hermes Agent 里免费就能玩，试试用 AI 代理学习新东西。

原文

00:01

elvis@omarsar0

精选

OpenClaw-Skill是一种新方法，通过树搜索而非贪心蒸馏来构建代理技能库。该方法分两个迭代阶段，联合生成、识别并组合技能节点，输出结构化的技能树。与传统的扁平化单次启发式技能列表相比，它能更好地实现组合性和覆盖性。该研究基于arXiv论文2606.16774。

论文 OpenClaw-Skill 智能体 LLM 技能库论文

推荐理由：想给LLM代理搞技能库？OpenClaw-Skill用树搜索取代扁平堆叠，两个阶段搞定组合与覆盖，比贪心蒸馏靠谱。

原文

6月16日

23:31

Lovable@lovable_dev

Lovable发布了MCP服务器（Research Preview）。用户可以从终端或AI agent直接创建、迭代和部署应用。该功能无需离开当前客户端即可使用。目前面向所有用户开放。

AI产品 Lovable MCP server 编程助手智能体产品动态

推荐理由：Lovable出了MCP服务器，能在终端或AI agent里直接建app和部署，不用切来切去，很方便。

原文

22:55

LangChain@LangChainAI

LangChain 发布了 Managed Deep Agents，一种托管式深度智能体服务，旨在简化复杂 AI Agent 的部署与管理。该服务内置多步骤推理、工具调用和记忆管理，支持集成 LangChain 生态的数百种工具和模型。用户无需自行搭建基础设施，即可通过 API 调用启动可扩展的深度智能体，适用于自动化任务、数据分析等场景。

AI产品 LangChain Managed Deep Agents 智能体

推荐理由：LangChain 出了个托管 Deep Agents，不用自己搭基础设施就能部署复杂智能体，省心省力。

原文

21:58

LangChain@LangChainAI

LangChain 推出 LangSmith Engine，旨在成为“代理的代理”，帮助开发者构建、测试和监控 AI 代理。该平台提供端到端的可观测性，可追踪代理的决策、工具调用和错误。支持与 LangChain 框架深度集成，简化代理部署流程。目前已在 LangSmith 平台内开放使用。

AI产品 LangSmith LangChain 智能体代理监控

推荐理由：LangChain 出了个新工具 LangSmith Engine，专门帮你看清你那些 AI 代理到底在干什么，调试和监控一步到位。

原文

21:34

LangChain@LangChainAI

LangChain 在推文中指出，agent 可能调用错误工具、跳过审批步骤、使用错误上下文或生成看似正确但实际错误的答案，即使返回“成功”响应任务也可能失败。因此生产环境中的 agent 团队不能只依赖 uptime、延迟和错误率指标。他们需要监控 agent 的完整执行轨迹，才能定位真正的问题。

技巧 LangChain agent 智能体监控生产环境

推荐理由：生产环境跑 agent 只看成功率不够，LangChain 提示要关注 agent 实际做了什么，推荐做完整轨迹追踪避免翻车。

原文

21:34

LangChain@LangChainAI

精选

LangChain 推出 Traces 功能，可记录 inputs、model calls、tool calls、outputs 和 final action。Evals 将这些学习转化为测试，用于验证下一版本是否更优。团队可借此从手动调试转向持续改进循环。LangChain 创始人 Harrison Chase 将于 6 月 24 日举办深入研讨会。

技巧 LangChain trace eval 智能体调试

推荐理由：想从手动调 bug 升级到自动化评估？LangChain 的 traces 和 evals 帮你把每次运行变成可测指标，持续优化 agent。

原文

18:57

Patrick Loeber@patloeber

@SmithaKolan 发布了一个AI agents教程，并提供了配套的代码资源。教程内容涵盖如何构建和部署AI agents。代码资源支持实战学习，适合开发者快速上手。

技巧 SmithaKolan AI agents 智能体教程

推荐理由：SmithaKolan 的AI agents教程带代码，手把手教你搭建智能体，适合想实操的开发者。

原文

16:59

AI Will@FinanceYF5

有人让一个Fable 5智能体连续运行6天、无人干预，发现90%的用户只用了其10%的能力。Fable 5设计初衷是长时间持续运行，但多数人只把它当成快速聊天框。该实验揭示了Fable 5实际潜力远超常见用法。

技巧 Fable 5 智能体使用经验

推荐理由：别只把Fable 5当聊天框使！有人让它连续跑了6天，才发现它隐藏的本事，赶紧试试让Fable 5帮你跑长期任务。

原文

16:28

Martin Fowler@martinfowler

Martin Fowler 在博客 Fragments 中分享了使用LLM编程的享受，并区分了四种LLM对话类型。他分析了AI爱好者和怀疑者之间的认知鸿沟，认为AI公司正在找到产品/市场契合。他还强调了去中心化的必要性。

行业编程助手智能体 LLM对话

推荐理由：Martin Fowler 把和LLM聊天的四种模式讲得很清楚，程序员必看，还能帮你理解AI圈里的观点分歧。

原文

15:01

Ate-a-Pi@svpino

Google免费发布了一个完整的AI Agent示例，用于模拟新员工入职流程。该Agent支持长时间运行，可自主暂停与恢复，且不丢失上下文。示例中详细介绍了三种架构模式，帮助开发者构建持久化的AI Agent。

技巧 Google 智能体架构模式上下文保持

推荐理由：Google开了个好头，这个示例手把手教你做长时间运行的AI Agent，能暂停恢复不丢上下文，学三招架构模式，直接上手。

原文

14:33

AI Will@FinanceYF5

行业 YC Y Combinator 智能体垂直AI 实体经济AI

推荐理由：YC创始人总结的这6个趋势很实在，告诉你AI到底怎么在工厂、供应链里落地，以及为什么创始人都在往美国跑，值得做创业或投资的看看。

原文

14:28

AI Will@FinanceYF5

YC 2026春季批次共196家公司、395位创始人。其中95%使用AI技术，85%为AI-native（AI即产品），仅10家完全不涉及AI。本批核心关键词是“agents”（智能体），而非泛泛的AI。

行业 YC AI-native 智能体创业生态

推荐理由：有人把YC这一批196家公司全扒了一遍，数据很硬核：95%用AI，85%是AI原生，只有10家没碰AI。如果你想看AI创业最新风向，这篇别错过。

原文

14:22

AlphaSignal@AlphaSignalAI

精选

CUA-Gym是一个端到端流水线，通过三个协调编码智能体自动生成可验证的计算机使用任务。它构建了94个流行应用的模拟版本，包括Slack、Notion、Salesforce和Gmail克隆，并直接读取状态设计奖励函数。生成的训练数据集包含32,112个验证元组，覆盖110个环境。基于该数据训练的模型在OSWorld-Verified基准上达到72.6%，与Claude Sonnet 4.6持平。一个3B参数的小模型以十分之一参数匹配了17B基座模型的性能。

AI模型 CUA-Gym Claude Sonnet OSWorld-Verified 智能体开源模型

推荐理由：CUA-Gym用三个AI智能体自动生成训练数据，省去人工标注。它克隆了94个常用软件，训练出的模型追平了Claude Sonnet 4.6，小模型3B参数达到17B效果，还完全开源。

原文

14:11

Harrison Chase@hwchase17

精选

开发者 Saurabh 强调，Agent 必须有可观测性。他用 LangGraph 做编排，LangSmith 做追踪、评估和回归测试。如果无法解释 Agent 为何给出某个回答，那就只是 demo 而非架构。他建议通过 tracing 捕获 prompt 和工具调用的全部上下文。

技巧 LangGraph LangSmith Agent 可观测性智能体

推荐理由：如果你在用 LangGraph 做 agent，这招能帮你从 demo 变成可交付的系统——关键是 LangSmith 的 trace 和 eval。

原文

13:48

AlphaSignal@AlphaSignalAI

精选

SIA论文提出将智能体视为可编辑系统，更新目标包括工具、解析器、验证器和权重。在LawBench基准上达到70.1%准确率。其CUDA内核运行仅1,017微秒，去噪任务mse_norm为0.289。论文提供公开仓库，支持选择聚焦于工具链或权重。核心结论是自改进智能体的性能取决于验证器质量。

论文 SIA LawBench 智能体自改进验证器

推荐理由：这篇SIA讲一个让智能体自己改进的方法，不只调提示，还能改工具和权重，在LawBench上做到了70.1%，代码也开源了。

原文

13:27

@TrenchersAI@TrenchersAI

TrenchersAI正在为其AI agent引入深度配置功能，允许高级用户自定义每个细节。新用户只需输入需求，agent会自动理解并执行。该功能将同时支持专业级执行，兼顾灵活性与易用性。产品计划在近期上线。

AI产品 TrenchersAI 智能体配置用户体验

推荐理由：TrenchersAI马上要更新AI agent了，高级用户可以自己调参数，新手直接说需求就行。两种模式都能高效执行。

原文

13:11

@zarazhangrui@zarazhangrui

一位AI专家建议，跨职能团队应为彼此构建专属智能体/技能，例如设计团队可为营销团队创建一个基于品牌指南和设计模式的设计智能体。这样营销团队能自主产出符合品牌规范的素材，无需频繁打扰设计师。这种模式适用于任何紧密协作且相互抱怨资源有限的团队，帮助团队转向“循环”而非“职能”的组织方式。

技巧智能体跨职能团队设计系统自动化效率提升

推荐理由：设计师可以给营销团队建个智能体，把品牌规范喂进去，他们就能自己出图不用老来喊你。

原文

12:50

@zarazhangrui@zarazhangrui

作者指出，非技术人员使用编程助手的真正障碍不是聊天界面本身，而是空白输入框假设用户已经知道可以问什么。大多数人并不清楚编程助手能做什么。Town 这款产品通过主动建议工作流程和可代办事项的引导流程，解决了用户不知道该问什么的问题，降低了使用门槛。

技巧 Town 编程助手智能体工作流

推荐理由：Town 的引导流程很聪明，主动告诉你它能做什么，而不是让你对着空白框发呆，推荐非技术人员试试。

原文

12:44

@zarazhangrui@zarazhangrui

飞书（Feishu/Lark）推出“Beautiful Feishu Whiteboard”技能，允许AI智能体在文档中生成完全可编辑的SVG图形。该技能支持30多种预设样式，可用于概念可视化、技术架构图、会议纪要摘要等场景。生成的图形支持拖拽元素进行二次编辑。

AI产品 Feishu Lark SVG 白板智能体

推荐理由：飞书这个新技能让AI直接帮你画可编辑的SVG图，30多种样式，连PPT都能代替。

原文

12:35

@TrenchersAI@TrenchersAI

TrenchersAI发布一款全新交易终端，从零开始设计，重点优化执行速度、智能代理、风险隔离和可访问性。该项目宣称不是对现有终端的迭代，而是创建一个新的交易基础设施类别。产品已在trenchers.ai上线。

AI产品 TrenchersAI 智能体交易终端金融基础设施

推荐理由：TrenchersAI从头造了一个交易终端，速度更快、自带智能代理、风险隔离也更强，不是改个界面而是全新品类。

原文

12:34

@TrenchersAI@TrenchersAI

TrenchersAI 发布新型 AI 交易工具，用户只需输入自然语言描述策略，系统自动配置并生成交易智能体。该工具在用户点击后自动创建隔离钱包并完成资金划转，实现从需求到可运行智能体的全流程自动化。与传统工具不同，用户无需手动编写代码或配置参数，整个流程仅需三步：输入、确认、启动。

AI产品 TrenchersAI 智能体自然语言处理 AI交易

推荐理由：TrenchersAI 这个交易工具真省事，用大白话就能生成交易智能体，还自动搞定隔离钱包，一键开始交易。

原文