全部 AI 动态 · AI 热点

AITOP

6月17日

06:28

AK@_akhaliq

Data Journalist Agent是一个能将结构化数据自动转化为多模态报道的智能体，输出包括图表、文本和视频。它内置事实核查机制，每一条数据均可追溯原始来源。这个智能体旨在提升数据新闻的生产效率和可信度。

AI模型 Data Journalist Agent 智能体多模态数据新闻事实核查

推荐理由：这个Data Journalist Agent能自动把数据做成带验证的图文视频报道，做数据新闻的不用手动整合多模态了

原文

06:04

NVIDIA AI@NVIDIAAI

73°

NVIDIA Research 推出 SpatialClaw，一个无需训练的智能体，通过编写 Python 代码作为动作接口。它在持久内核中动态组合感知模块，检查中间结果并跨步骤调整策略。感知输出作为普通变量，可结合 NumPy、SciPy 等库复用。SpatialClaw 在 20 个基准上平均比先前方法高 11.2 分，在 6 种不同模型骨干上表现稳定。

AI模型 SpatialClaw NVIDIA 智能体多模态视觉推理

推荐理由：SpatialClaw 不用额外训练，靠写代码搞定复杂视觉任务，在 20 个基准上平均提升 11.2 分，还兼容多种模型。

原文

05:58

OpenRouter@OpenRouterAI

OpenRouter发布教程，教你构建对模型移除和弃用具有鲁棒性的智能体。这是首个针对实时AI模型的出口管制事件（发生在该帖子3天后）背景下的指导。教程涉及EU AI Act（2026年8月生效）、科罗拉多州ADMT法（2027年1月）和NIST AI RMF等法规要求，强调为敏感操作设置人工门控。OpenRouter Agent SDK使这一过程变得简单。

技巧 OpenRouter Agent SDK 智能体 AI安全

推荐理由：OpenRouter出了个实用教程，教你用Agent SDK应对法规下模型被移除的情况。简单好用。

原文

05:46

LangChain@LangChainAI

LangChain发布新指南，指出金融服务中智能体开发的下一阶段将由信任、控制和生产就绪来衡量。指南以JP Morgan、Chime和Bridgewater为例，展示他们在研究、会员体验和投资工作流中部署生产级智能体的实践。这些案例强调了从实验到生产的关键挑战和解决方案。

行业 JP Morgan Chime Bridgewater 智能体金融

推荐理由：LangChain教你金融业怎么用智能体，JP Morgan、Chime、Bridgewater的实战案例都在这了。

原文

04:13

OpenAI@OpenAI

OpenAI 在推文中介绍其模拟部署方法可将评估意识降低至接近真实生产流量水平。该方法扩展至带状态工具的智能体部署，表明工具模拟器在给定充分上下文和能力时能够生成逼真的轨迹。这有助于更准确地评估模型在真实场景中的表现。

论文 OpenAI 模拟部署智能体评估意识工具模拟器

推荐理由：OpenAI 分享了模拟部署的技术细节，能大幅降低评估误差，对研究模型评估和智能体部署的人很有参考价值。

原文

04:01

elvis@omarsar0

72°

Z.ai 宣布推出 GLM-5.2 开源权重模型，MIT 许可发布。其在编码和智能体任务上有显著改进，支持 1M 上下文窗口。提供两种推理等级：GLM-5.2 (max) 和 GLM-5.2 (high)，后者在性能与 token 效率间取得平衡。API 定价与 GLM-5.1 相同，权重已上架 Hugging Face。

AI模型 GLM-5.2 Z.ai 开源模型编码智能体长上下文

推荐理由：Z.ai 发了 GLM-5.2，开源权重、MIT 许可，编码和智能体能力提升明显，还支持 1M 上下文，想玩前沿模型的可以试试。

原文

03:43

LangChain@LangChainAI

LangSmith 新增代理拆解功能，可让开发者追踪 AI 代理在生产环境中的每一步决策。该功能帮助快速定位失败原因，并识别关键改进点。无需修改代码即可解析代理行为逻辑，实现持续优化。

AI产品 LangSmith LangChain 智能体可观测性生产环境

推荐理由：LangSmith 新功能让你像拆玩具一样拆解 AI 代理，哪步走错了门清，生产环境调试超省心。

原文

03:28

lmarena.ai@lmarena_ai

Agent Arena 是一个智能体性能排行榜，现已在 arena.ai/leaderboard/ag... 上线。用户可通过按开放模型或按实验室（lab）筛选来查看详细数据。该排行榜为不同智能体模型提供了直接的性能对比基准。

AI模型 Agent Arena 智能体排行榜基准测试开放模型

推荐理由：想比对比不同智能体模型？去Agent Arena排行榜，能按开放模型或实验室筛选，帮你找到合适的。

原文

03:05

OpenRouter@OpenRouterAI

精选

智谱AI的GLM-5.2模型已在OpenRouter平台上线。该模型拥有100万token的上下文窗口。它专为长周期、混乱的编码代理任务设计，能保持可靠性。

AI模型 GLM-5.2 Z.ai OpenRouter 超长上下文智能体

推荐理由：GLM-5.2在OpenRouter上架了，百万级上下文处理复杂编码任务，适合做长周期智能体。

原文

03:04

Satya Nadella@satyanadella

微软宣布 Copilot Cowork 在全球范围正式可用，新增多模型支持。该工具允许企业部署长期运行代理，处理复杂多步任务，并结合组织内部知识进行决策。目前已在 Microsoft 平台上开放。

AI产品 Copilot Cowork 微软多模型智能体企业应用

推荐理由：微软刚发布了 Copilot Cowork，支持多模型，能自动跑复杂任务，用你公司的数据干活。

原文

03:04

OpenRouter@OpenRouterAI

精选

Z.ai 发布 GLM-5.2 模型，采用 MIT 开源许可。该模型在编码和智能体任务上有显著提升，支持最长 1M 标记的上下文窗口。提供两种推理强度：GLM-5.2 (max) 追求极限性能，GLM-5.2 (high) 平衡性能与 token 效率。API 定价与 GLM-5.1 保持一致。

AI模型 GLM-5.2 Z.ai 开源模型编码助手智能体

推荐理由：Z.ai 新出的 GLM-5.2 模型，编码和智能体能力大幅增强，还有 1M 超大上下文，而且开源！API 价格没涨，值得试试。

原文

03:01

LangChain@LangChainAI

LangSmith Sandboxes 允许 agent 在响应前验证生成的代码是否运行。适用于构建编码助手、CI agent 或数据管道等需要操作真实文件的场景。该功能解决了 agent 仅能描述而不能实际执行的问题。

AI产品 LangSmith 智能体代码生成 CI工具数据管道

推荐理由：LangSmith 推出了 Sandboxes，让 agent 真正跑代码并验证结果。适合做编程助手、CI 自动化或数据处理。

原文

03:01

LangChain@LangChainAI

LangChain 推出 LangSmith LLM Gateway，将智能体治理直接嵌入开发平台。该网关允许开发者在构建、观察和评估智能体的同一界面中执行安全规则，无需事后额外配置。它支持对 LangChain 智能体进行实时治理，确保合规与安全。

AI产品 LangChain LangSmith LLM Gateway 智能体治理智能体

推荐理由：想给智能体加治理规则？LangChain 新出的 LLM Gateway 直接在开发平台里搞定了，不用再另外折腾。

原文

03:01

lmarena.ai@lmarena_ai

精选72°

GLM-5.2 (Max) 在 Agent Arena 排行榜上排名第10，得分接近 Claude-Opus-4.8（非推理模式）。它成为排名最高的开源模型，较去年发布的 GLM-5.1 从第13位上升3位。该模型在数百万真实长程任务上评测，可调用网页搜索、文件系统和终端工具。GLM-5.2 (Max) 输入/输出定价保持为每百万 token 1.4/4.4 美元，支持1M上下文窗口，权重采用 MIT 许可开源。

AI模型 GLM-5.2 Zai_org Agent Arena 开源模型智能体

推荐理由：Zai_org 发了 GLM-5.2，在 Agent 任务榜单上排第10，碾压所有开源模型，而且价格没变。跑复杂工作流、调工具效果明显进步。

原文

02:58

Arthur Mensch@arthurmensch

Arthur Mensch宣布与全球公司和政府合作，使用Forge工具确保AI系统远离外部控制并提升效率。Forge基于记录的人机交互持续训练模型，每次模型发布都会迭代改进。该工具强调成本结构优化，通过高效训练实现可控性。

AI产品 Forge 微调智能体 AI安全

推荐理由：Forge让你用真实人机交互数据持续微调模型，成本低、可控性高，适合企业和政府部署AI。

原文

02:43

Google Gemini App@GeminiApp

Google Gemini App 推出 Daily Brief 功能，可在每天早晨自动为你整理日程。用户可以通过点按 👍或 👎 直接反馈，让 Gemini 更了解你的偏好。你也可以通过“与 Gemini 聊天”进一步调整简报内容。点击简报条目下的‘更多’可查看 Gemini 引用的具体邮件、聊天或 Google 日历事件。这些技巧能帮你更好地利用 Daily Brief 管理日常事务。

技巧 Gemini Daily Brief 智能体提示词工程

推荐理由：Google Gemini 的 Daily Brief 能自动汇总你的日程、邮件和聊天记录，早上看一眼就心里有数。三个小技巧教你调教它，让 AI 越来越懂你。

原文

02:37

LlamaIndex@llama_index

精选

LlamaIndex 团队为 Claude 构建了自定义 PDF 解析技能，利用真实使用痕迹发现 AI agent 反复读取同一文件、不必要截图等浪费步骤。修复后，每问题成本降低 37%，回答质量全面提升且浪费步骤减少。该案例展示了如何通过分析 agent 痕迹来定位并修复性能瓶颈。

技巧 Claude LlamaIndex 智能体 PDF 解析成本优化

推荐理由：LlamaIndex 手把手教你用 traces 优化 Claude 的 PDF 解析，成本直降 37%，答案还更准了，值得一试。

原文

01:59

lmarena.ai@lmarena_ai

Agent Arena 在其官方博客中介绍了用于智能体评估的因果追踪方法论。该方法可帮助研究人员分析智能体决策背后的因果链路。Agent Arena 平台本身支持多种智能体基准测试。

AI模型 Agent Arena 智能体评估基准因果追踪

推荐理由：Agent Arena 的因果追踪方法能帮你搞懂智能体为什么那么做，比单纯看分数更有用。

原文

01:58

Jim Fan@jimfan

精选72°

ENPIRE赋予8个Codex智能体机器人集群和GPU资源，自主完成高精度物理任务。系统能独立绑扎带、整理细针、安装GPU。实验显示8台机器人并行探索比少量效率显著提升。NVIDIA GEAR实验室已实现机器人彻夜自主改进。团队计划开源全部代码。

AI产品 ENPIRE Codex NVIDIA 智能体机器人

推荐理由：NVIDIA让8个AI智能体自己控制机器人干活，还能绑扎带装显卡，而且要开源，你可以在家搭机器人实验室了！

原文

01:57

Jim Fan@jimfan

76°

NVIDIA联合CMU和伯克利推出ENPIRE系统，让AI智能体完全自主控制真实机器人循环，包括重置环境、搜索文献、实现想法、训练部署、自我验证等步骤。该系统在整理别针、安装GPU、绑扎带等灵巧任务上达到99%成功率。机器人通过自提出启发式成功信号进行爬坡优化，无需人类介入。

AI模型 ENPIRE NVIDIA 机器人智能体自主循环

推荐理由：NVIDIA搞了个ENPIRE，让AI自己操控机器人反复试错，真实任务成功率干到99%，连GPU都能自己插。

原文

01:31

lmarena.ai@lmarena_ai

精选

MiniMax M3 在全新 Agent Arena 排行榜上位列第18，是排名第5的开源模型。相比 M2.7，M3 从第22名升至第18名，主要改进是任务成功确认和 bash 错误恢复能力。工具幻觉保持低位，与最佳模型并列第一。排行榜基于30万+任务、200万+工具调用和4000万行代码的代理会话评估。

AI模型 MiniMax M3 Agent Arena 开源模型智能体

推荐理由：MiniMax M3 在 Agent Arena 上排名上升了4位，是最强开源模型之一，能写代码、做PPT、查资料，幻觉控制也顶级。

原文

00:58

Jerry Liu@jerryjliu0

Jerry Liu 认为代码代理（如 Cursor）是计算机使用和知识工作的好代表，但 Cursor 在产品体验上仍有不足：长期不支持上传 PDF，需要更广的数据源接口（CRM、ERP 等），以及更好的非结构化文档编辑（如 Word、Excel）。Riley Brown 指出 Cursor 正成为 Codex 和 Claude Desktop 的竞争者，其内置浏览器和 Composer 模型性能优秀，但需完善文档渲染功能。

AI产品 Cursor Claude Code Codex 编程助手智能体

推荐理由：两位 AI 资深用户聊 Cursor 的现状和短板，说它离替代 Claude Desktop 就差文档支持了。非开发者可以看看它能不能当你的通用工作台。

原文

00:58

LangChain@LangChainAI

LangChain 发布 Deep Agents 深度解析第二部分，讲解上下文管理关键能力。Sydney Runkle 在不到2分钟视频中演示如何控制 Agent 长期记忆与状态。该方法可让 Deep Agents 在连续多轮对话中保持一致性，避免遗忘。

技巧 LangChain Deep Agents 智能体上下文管理提示词工程

推荐理由：如果你在用 LangChain 做智能体，这个2分钟视频教你怎么管理上下文，让 Agent 不跑偏。

原文

00:58

LangChain@LangChainAI

LangSmith Fleet 新增两种智能体类型：General Purpose Chat 和 Specialized Agents。LangChain 的 @BraceSproul 解释了为何提供两种选择以及各自适用场景。General Purpose Chat 适合日常对话，Specialized Agents 针对特定任务优化。这一设计让开发者根据需求灵活选用。

AI产品 LangSmith General Purpose Chat Specialized Agents 智能体

推荐理由：LangChain 的 Fleet 现在有两种智能体可选，通用聊天聊天专用，看需求挑就行，开发者福音。

原文

00:28

elvis@omarsar0

mattpocockuk 发布了新技能 /teach skill，功能类似于之前已有的 /learn skill。该技能在 Hermes Agent 的 academy 中免费开放使用，用户可通过 AI agent 进行互动学习。实验室当前保持免费，鼓励用户尝试。

技巧 Hermes Agent teach skill learn skill 智能体 AI学习

推荐理由：mattpocockuk 推了一个新教学技能，和 /learn skill 很像，在 Hermes Agent 里免费就能玩，试试用 AI 代理学习新东西。

原文

00:01

elvis@omarsar0

精选

OpenClaw-Skill是一种新方法，通过树搜索而非贪心蒸馏来构建代理技能库。该方法分两个迭代阶段，联合生成、识别并组合技能节点，输出结构化的技能树。与传统的扁平化单次启发式技能列表相比，它能更好地实现组合性和覆盖性。该研究基于arXiv论文2606.16774。

论文 OpenClaw-Skill 智能体 LLM 技能库论文

推荐理由：想给LLM代理搞技能库？OpenClaw-Skill用树搜索取代扁平堆叠，两个阶段搞定组合与覆盖，比贪心蒸馏靠谱。

原文

6月16日

23:31

Lovable@lovable_dev

Lovable发布了MCP服务器（Research Preview）。用户可以从终端或AI agent直接创建、迭代和部署应用。该功能无需离开当前客户端即可使用。目前面向所有用户开放。

AI产品 Lovable MCP server 编程助手智能体产品动态

推荐理由：Lovable出了MCP服务器，能在终端或AI agent里直接建app和部署，不用切来切去，很方便。

原文

22:55

LangChain@LangChainAI

LangChain 发布了 Managed Deep Agents，一种托管式深度智能体服务，旨在简化复杂 AI Agent 的部署与管理。该服务内置多步骤推理、工具调用和记忆管理，支持集成 LangChain 生态的数百种工具和模型。用户无需自行搭建基础设施，即可通过 API 调用启动可扩展的深度智能体，适用于自动化任务、数据分析等场景。

AI产品 LangChain Managed Deep Agents 智能体

推荐理由：LangChain 出了个托管 Deep Agents，不用自己搭基础设施就能部署复杂智能体，省心省力。

原文

22:28

量子位@梦瑶

AI产品鸿蒙小艺华为智能体多模态 AI助手

推荐理由：华为小艺升级后能和朱广权说脱口秀，能主动调度应用、自进化，不是普通问答助手，值得试试。

原文

21:58

LangChain@LangChainAI

LangChain 推出 LangSmith Engine，旨在成为“代理的代理”，帮助开发者构建、测试和监控 AI 代理。该平台提供端到端的可观测性，可追踪代理的决策、工具调用和错误。支持与 LangChain 框架深度集成，简化代理部署流程。目前已在 LangSmith 平台内开放使用。

AI产品 LangSmith LangChain 智能体代理监控

推荐理由：LangChain 出了个新工具 LangSmith Engine，专门帮你看清你那些 AI 代理到底在干什么，调试和监控一步到位。

原文

21:49

21:49IT之家（博客/媒体）

精选

小米发布MiMo Claw正式版，搭载与OpenClaw框架深度适配的MiMo-V2.5-Pro旗舰模型。该模型在ClawEval基准测试中任务达标率（Pass³）达63.8%，Token消耗较同类产品降低40%-60%。产品联动金山办公，支持Word、Excel、PPT、PDF等格式，实现AI生成、预览、编辑全链路。免费用户单次体验时长从1小时升级至4小时每天，并推出TokenPlan分层订阅（14.9元/月起）。

AI产品 MiMo Claw MiMo-V2.5-Pro OpenClaw 金山办公智能体

推荐理由：小米新出的MiMo Claw，自带MiMo-V2.5-Pro模型，办公文档一条龙，免费时长翻四倍，Token还省一半多。

原文

21:37

21:37IT之家（博客/媒体）

腾讯公关总监张军6月16日宣布，智能体WorkBuddy即将入职政务系统。全国首个省级政务智能中枢平台“湾擎”上线试运行，同时预发布湾擎·WorkBuddy，面向广东全省公务员开放。该智能体覆盖公文辅助、材料校核、政策检索、业务咨询、流程协同、任务辅助六大高频场景。目前已在广东省直多个单位试点，后续全省铺开。湾擎中枢已归集100余个政务场景，适配十数款主流大模型。

AI产品 WorkBuddy 湾擎腾讯智能体政务系统

推荐理由：腾讯刚在广东上线了政务智能中枢“湾擎”，配套的办公智能体WorkBuddy能帮你写公文、查政策、跨部门协作，覆盖六大高频场景，和普通AI办公工具不同，这是专为公务员定制的。

原文

21:34

LangChain@LangChainAI

LangChain 在推文中指出，agent 可能调用错误工具、跳过审批步骤、使用错误上下文或生成看似正确但实际错误的答案，即使返回“成功”响应任务也可能失败。因此生产环境中的 agent 团队不能只依赖 uptime、延迟和错误率指标。他们需要监控 agent 的完整执行轨迹，才能定位真正的问题。

技巧 LangChain agent 智能体监控生产环境

推荐理由：生产环境跑 agent 只看成功率不够，LangChain 提示要关注 agent 实际做了什么，推荐做完整轨迹追踪避免翻车。

原文

21:34

LangChain@LangChainAI

精选

LangChain 推出 Traces 功能，可记录 inputs、model calls、tool calls、outputs 和 final action。Evals 将这些学习转化为测试，用于验证下一版本是否更优。团队可借此从手动调试转向持续改进循环。LangChain 创始人 Harrison Chase 将于 6 月 24 日举办深入研讨会。

技巧 LangChain trace eval 智能体调试

推荐理由：想从手动调 bug 升级到自动化评估？LangChain 的 traces 和 evals 帮你把每次运行变成可测指标，持续优化 agent。

原文

19:46

19:46IT之家（博客/媒体）

微信支付正联合腾讯智能体产品WorkBuddy测试AI支付功能，计划在微信钱包中上线“AI专属卡”，最快本周内上线。昨天微信支付AI接入工具箱升级至2.0版本，围绕安全、高效、原生流畅方向更新五大内容，覆盖支付所有产品知识。2.0版本新增技术专家能力，支持从场景选型到动态排障的全链路问答；以及金融级研发专家，内置代码审查机制识别审计盲区。

AI产品微信支付 WorkBuddy AI专属卡 AI支付智能体

推荐理由：微信支付要出AI专属卡了，还升级了开发工具箱2.0，能自动排查支付报错，开发者省心了。

原文

18:57

Patrick Loeber@patloeber

@SmithaKolan 发布了一个AI agents教程，并提供了配套的代码资源。教程内容涵盖如何构建和部署AI agents。代码资源支持实战学习，适合开发者快速上手。

技巧 SmithaKolan AI agents 智能体教程

推荐理由：SmithaKolan 的AI agents教程带代码，手把手教你搭建智能体，适合想实操的开发者。

原文

17:49

Decoder@Maximilian Schreiner

Anthropic 取消了原计划为 Claude Agent SDK 推出的独立计费系统。该 SDK 和第三方应用将继续从常规订阅限额中扣费。此前 Anthropic 因计费变更引发用户不满，此次调整正值与 OpenAI 的价格竞争加剧之际。

行业 Anthropic Claude Agent SDK OpenAI 智能体定价

推荐理由：Anthropic 悬崖勒马，放弃了 Claude Agent SDK 的独立计费，稳住用户比在价格战前惹毛他们更重要。

原文

17:25

marktechpost@Michal Sutter

精选

Nous Research 在 Hermes Agent 中新增了异步子代理功能，delegate 工具可生成后台代理而不阻塞父聊天。async_delegation 工具集（issue #5586）支持生成、检查、引导和收集任务。该功能包含子代理隔离机制，并讨论了同步与异步的权衡及 ACP 的适用场景。

AI产品 Hermes Agent Nous Research 异步子代理智能体

推荐理由：Hermes Agent 现在能同时干多件事了，委托任务不耽误主聊天，适合需要并行处理复杂任务的场景。

原文

16:59

AI Will@FinanceYF5

有人让一个Fable 5智能体连续运行6天、无人干预，发现90%的用户只用了其10%的能力。Fable 5设计初衷是长时间持续运行，但多数人只把它当成快速聊天框。该实验揭示了Fable 5实际潜力远超常见用法。

技巧 Fable 5 智能体使用经验

推荐理由：别只把Fable 5当聊天框使！有人让它连续跑了6天，才发现它隐藏的本事，赶紧试试让Fable 5帮你跑长期任务。

原文

16:28

Martin Fowler@martinfowler

Martin Fowler 在博客 Fragments 中分享了使用LLM编程的享受，并区分了四种LLM对话类型。他分析了AI爱好者和怀疑者之间的认知鸿沟，认为AI公司正在找到产品/市场契合。他还强调了去中心化的必要性。

行业编程助手智能体 LLM对话

推荐理由：Martin Fowler 把和LLM聊天的四种模式讲得很清楚，程序员必看，还能帮你理解AI圈里的观点分歧。

原文