全部 AI 动态 · AI 热点

AITOP

6月24日

22:46

LangChain@LangChainAI

精选

Jeff Barg在Interrupt会议上透露，Clay每月运行3.5亿个GTM智能体。他指出，缓存可将LLM调用成本降低高达70%。限制工具调用范围不仅能节省成本，还能提升输出质量。在多租户负载下，引入公平队列机制至关重要。

技巧 Clay GTM agents LLM成本缓存工具调用

推荐理由：做AI智能体上线的小伙伴必看，Clay的AI负责人亲自讲了怎么降本70%和优化队列，干货12分钟。

原文

00:33

Philipp Schmid@_philschmid

精选71°

这篇指南由 Google AI Studio 发布，帮助开发者上手 Gemini Interactions API。它通过 `previous_interaction_id` 实现对话链式衔接，演示了如何启用和处理 streaming 响应。指南还展示了执行本地函数调用的完整循环，并介绍了在远程沙箱中运行 Antigravity Agent 的方法。

技巧 Gemini Interactions API Google 智能体工具调用

推荐理由：Google 官方出的 Gemini 交互 API 教程，从 streaming 到 agent 沙箱都有代码示例，想写多轮工具调用可以看这个。

原文

6月23日

05:06

LangChain@LangChainAI

精选

Deep Agents v0.6 新增代码解释器，代理可在运行时调用工具。中间结果保留在模型上下文之外，仅传回相关输出。这减少了往返次数和 token 浪费。该版本由 LangChain 发布。

AI产品 Deep Agents LangChain 代码解释器智能体工具调用

推荐理由：Deep Agents v0.6 出代码解释器了！运行时调工具，中间结果不占上下文，省 token 还少跑几趟。看详情。

原文

6月19日

14:36

小互@imxiaohu

豆包实时语音模型3.0 API 正式上线，支持全双工模式，可同时听和说并随时插话。采用端到端语音进语音出，无需转录，响应更快更自然。模型能精准遵循指令，例如在多人聊天中设定规则后静待话题出现再参与。支持自定义工具调用，可在实时对话中完成预定日历、发邮件、总结文档等任务，向语音 Agent 迈进。

AI模型豆包实时语音模型3.0 全双工语音Agent 工具调用

推荐理由：豆包出了3.0语音模型，能同时听说、随时插话，还能在对话里调工具办事情，比传统语音助手强一大截。

原文

6月18日

12:59

@atomic_chat_hq@atomic_chat_hq

精选

Liquid 的 LFM2.5-8B-A1B（8B总参、1B激活）在 MacBook Pro M5 Max 上本地运行，与 OpenAI 的 gpt-oss-20b 对比工具调用能力。面对需执行7个工具调用的旅行规划任务，LFM2.5-8B-A1B 全部成功，而 gpt-oss-20b 仅完成 3 个。内存方面，LFM2.5-8B-A1B 仅用 4.8 GB，远低于对手的 11 GB。速度上，LFM2.5-8B-A1B 达到 266 tok/s，总耗时 6.9 s，而 gpt-oss-20b 为 146 tok/s 和 15.0 s。该模型利用 38T 训练 token 的 MoE 架构，实现了小参数下的高效工具调用。

AI模型 Liquid LFM2.5-8B-A1B gpt-oss-20b 工具调用 MoE

推荐理由：Liquid 这个 8B MoE 模型只用 4.8GB 内存就比 OpenAI 20B 模型多调用了一倍工具，速度还快两倍，本地跑 agent 任务很实用。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

08:02

AI SDK@aisdk

AI SDK 推出新功能，允许开发者通过 Open Policy Agent 为智能体工具调用设置运行时防护栏。这些策略以代码形式定义，可在智能体执行过程中实时拦截和审核工具调用，防止其做出意外或危险的操作。该功能解决了 AI 智能体在生产环境中可能“失控”的核心安全问题，让开发者能更安全地部署自主代理。目前该功能已可用，适合需要精细控制智能体行为的团队。

AI产品智能体安全/防护 Open Policy Agent AI SDK 工具调用

推荐理由：做 AI 智能体的开发者终于有了运行时安全网——用代码定义策略来防止工具调用失控，比事后补救靠谱太多，建议直接集成到你的 agent 工作流里。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

00:52

lmarena.ai@lmarena_ai

72°

Agent Arena 团队指出，传统依赖人类偏好的评测方式无法扩展至智能体场景，因为人类难以判断30分钟轨迹中的数百次工具调用。他们构建了基于真实使用轨迹的客观信号评测方法，包括Bash错误、工具幻觉和“疯狂信号”等指标。这种方法能更准确地评估智能体在复杂任务中的表现，避免人类主观判断的局限性。该评测方法已应用于Agent Arena排行榜，为开发者提供更可靠的模型性能参考。

AI模型智能体评测方法 Agent Arena 工具调用客观信号

推荐理由：智能体评测一直是个难题，Agent Arena 用真实轨迹信号替代人类偏好，做智能体开发的团队可以直接参考这套方法论来改进自己的评测体系。

原文

6月10日

03:24

OpenRouter@OpenRouterAI

OpenRouter 发布了其 Agent SDK 的新功能：人机协作工具。该 SDK 能自动处理常规工具调用，对高风险操作则暂停执行等待人工审核。它支持在重启后持久化状态，并验证人类响应是否符合预定义模式，之后能无缝恢复执行。这一更新让开发者可以更安全地构建需要人工介入的 AI 代理流程。

AI产品 OpenRouter Agent SDK 人机协作工具调用状态持久化

推荐理由：做 AI 代理应用的开发者终于有了现成的方案来处理人机协作的痛点——暂停、恢复、状态持久化，建议直接集成到你的工作流中。

原文

00:44

AI SDK@aisdk

AI SDK 7 canary 版本发布，新增工具调用审批配置功能。开发者现在可以在 ToolLoopAgent、generateText 和 streamText 中直接为任意工具设置审批逻辑，支持三种方式：使用常量进行工具特定审批、使用函数进行工具特定审批、以及使用自定义逻辑的通用审批函数。这一更新提升了 AI 应用的安全性和可控性，尤其适合需要人工审核工具调用的场景。

AI产品 AI SDK 工具调用审批配置安全控制开发者工具

推荐理由：做 AI 应用开发的团队终于可以精细控制工具调用了——不用再担心模型擅自执行敏感操作，建议用 AI SDK 的开发者立即升级试试。

原文

6月9日

03:04

LangChain@LangChainAI

精选

LangChain 推出了 Deep Agents，一个开源智能体框架，旨在构建能够规划、使用工具、委托子代理、写入文件并长时间工作的智能体。该框架提供了一个可管理的环境，并集成到 LangSmith 中，为开发者提供持久化的智能体运行和监控能力。这一发布降低了构建复杂、长周期智能体的门槛，适合需要自动化多步骤任务的团队。

AI产品智能体开源/仓库 LangChain LangSmith 工具调用

推荐理由：LangChain 的 Deep Agents 解决了构建长周期、多步骤智能体的痛点，做自动化流程或复杂任务编排的开发者可以直接上手试试。

原文

6月6日

06:41

rohanpaul_ai@rohanpaul_ai

Agent Arena 发布了一个全新的智能体排行榜，不再依赖传统基准测试中的孤立问题，而是评估 AI 模型在真实用户任务中的表现，包括编写代码、构建应用、研究主题、创建文档和分析文件等。该排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码的数据，综合考量任务成功、可引导性、错误恢复、用户表扬/投诉和工具幻觉等信号。结果显示，GPT-5.5 High 以 +10.7% 的净改进率领先，Claude Opus 4.7 Thinking 和 GPT-5.4 High 紧随其后。该排行榜的核心价值在于将智能体视为工作系统，综合评估模型选择、工具使用、恢复行为和用户满意度。

AI模型智能体排行榜 GPT-5.5 Claude Opus 4.7 工具调用

推荐理由：做智能体开发和评测的团队终于有了一个贴近真实工作场景的排行榜——Agent Arena 用 30 万+ 任务和 200 万+ 工具调用数据，告诉你哪个模型在写代码、做研究、处理文档时真正靠谱，值得点开看看你的模型排第几。

原文

6月3日

00:37

小互@imxiaohu

用户反馈 Claude Code 升级至 4.8 版本后，频繁出现工具调用无法解析的错误，即使重试也失败。该问题影响开发者的自动化工作流，导致任务中断。目前官方尚未回应，社区中已有 7 条讨论，1772 次浏览，显示问题较为普遍。

AI产品 Claude Code 工具调用 Bug/报错开发者体验升级问题

推荐理由：Claude Code 重度用户注意了——4.8 版本的解析 bug 会打断你的自动化流程，遇到类似问题的开发者可以看看评论区是否有临时方案。

原文

6月2日

08:14

岚叔@lufzzliz

AI模型 Qwen3.7-Plus 多模态 Agent 工具调用性价比

推荐理由：Qwen3.7-Plus 把多模态 Agent 的实用门槛又拉低了一截，做自动化工作流或 GUI 操作的开发者可以直接关注，性价比和功能覆盖都很能打。

原文

5月31日

05:10

rohanpaul_ai@rohanpaul_ai

精选72°

atomic.chat 在 MacBook Pro M5 Max 64GB 上对比了本地 AI 智能体的工具调用能力。Liquid 的 LFM2.5-8B-A1B 模型（8B 参数，MoE 架构）在规划旅行任务中，成功完成所有 7 次外部工具调用（天气查询、货币转换、邮件和提醒），而 gpt-oss-20b 仅完成 3/7 次。LFM2.5-8B-A1B 运行速度达 266 tok/s，内存占用仅 4.8GB，而 gpt-oss-20b 为 146 tok/s 和 11GB。这表明工具调用本质上是控制问题而非语言问题，更小但训练更聚焦的模型可以胜过更大但泛化的模型。

AI模型本地模型工具调用智能体 LFM2.5-8B-A1B gpt-oss-20b

推荐理由：做本地 AI 智能体或工具调用开发的团队，这个对比直接告诉你：模型大小不是关键，控制能力才是。LFM2.5-8B-A1B 的性价比碾压，值得在本地部署试试。

原文

5月30日

11:15

Geek@geekbb

精选

Nous Research 为其 Hermes Agent 引入了 Tool Search 功能，使智能体能够按需加载所需工具，而非一次性加载全部。这一改进提升了资源利用效率和响应速度，尤其适合复杂任务场景。该功能通过动态工具选择机制，减少了不必要的计算开销。对于构建高效智能体的开发者而言，这是一项实用的优化。

AI产品智能体工具调用 Nous Research Hermes Agent 效率优化

推荐理由：Hermes Agent 的 Tool Search 解决了智能体工具冗余加载的痛点，做 Agent 开发的团队可以直接参考实现，提升任务执行效率。

原文

01:17

berryxia@berryxia

Liquid AI 发布 LFM2.5-8B-A1B 模型，这是一个 8B MoE 模型，但仅需 1.5B 活跃参数即可运行。该模型经过 38T tokens 训练和大规模 RL，支持 128K 上下文，工具调用和多步 Agent 能力接近 4 倍参数模型。单台笔记本即可运行完整本地 Agent 循环，延迟低且全程隐私安全，无需调用 GPT-4o 或 Claude。支持 llama.cpp、MLX、vLLM 等框架，覆盖 Apple、NVIDIA、AMD 硬件，表明本地 Agent 落地比预期更快。

AI模型 Liquid AI LFM2.5-8B-A1B MoE 本地Agent 工具调用

推荐理由：本地 Agent 开发者终于不用等大模型了——1.5B 活跃参数就能跑出接近 4 倍参数模型的效果，笔记本就能部署，隐私和延迟都解决了，做本地自动化的建议直接试。

原文

5月28日

05:08

LangChain@LangChainAI

LangChain 发布了 Managed Deep Agents，专为需要长时间运行、使用工具、保持上下文并生成产物的智能体设计。该产品支持多种应用场景，包括客服与分类智能体、研究智能体、编程智能体、数据分析智能体和内部运营智能体。它解决了传统智能体在长周期任务中上下文丢失和工具调用不稳定的问题。团队可以基于此构建更可靠、更自主的自动化工作流。

AI产品 LangChain 智能体长周期任务自动化工具调用

推荐理由：做复杂自动化任务的团队终于有了专门的长周期智能体方案——LangChain 的 Managed Deep Agents 解决了上下文丢失和工具调用稳定性问题，做客服、研究、编程或数据分析的开发者可以直接用来构建更可靠的自主工作流。

原文

5月21日

08:00

OpenRouter@OpenRouterAI

76°

OpenRouter 宣布，平台上所有支持工具调用的模型现在都可以自主决定何时进行网络搜索、搜索什么内容以及搜索多少次，实现了智能化的网络搜索与获取功能。同时，OpenRouter 新增了 @p0 作为网络搜索提供商。这一更新让开发者无需手动配置搜索逻辑，模型能根据任务需求自动调用搜索工具，提升了信息获取的灵活性和效率。对于需要实时信息或外部知识的 AI 应用，这是一个实用的功能增强。

AI产品 OpenRouter 工具调用网络搜索智能体 AI 产品

推荐理由：做 AI 应用开发的团队不用再自己写搜索调度逻辑了——模型自己决定搜什么、搜几次，OpenRouter 用户可以直接用起来。

原文

5月20日

18:28

Skywork@Skywork_ai

Skywork 发布 SkyClaw-v1.0 智能体模型，专为 OpenClaw、Hermes 和 Nanobot 优化，具备更强的工具使用和多轮任务执行能力。该模型现已作为一级提供商正式集成到 nanobot 配置中，用户只需填入 API 密钥即可使用。同时推出的还有 SkyClaw-v1.0-lite，速度更快、成本更低。

AI模型智能体工具调用 SkyClaw nanobot 开源/仓库

推荐理由：智能体开发者终于有了一个专门为工具调用和多轮任务优化的模型，直接接入 nanobot 就能用，做 agent 编排的团队建议试试。

原文

03:29

NVIDIA AI@NVIDIAAI

Nemotron Labs 发布了一项关于智能体技能执行前认证的技术方案，旨在解决 AI Agent 在调用外部工具或技能时的安全与可信问题。该方法在 Agent 执行动作前对技能进行验证，确保只有经过授权的技能才能被调用，从而降低误操作和恶意利用的风险。该技术对于构建安全可靠的 Agent 系统具有重要意义，尤其适用于金融、医疗等对安全性要求高的场景。Nemotron Labs 通过直播演示了该方案的具体实现，吸引了开发者社区的关注。

AI产品智能体安全/认证工具调用 Nemotron Labs AI Agent

推荐理由：Agent 安全是当前 AI 落地的关键瓶颈，Nemotron 的方案直接解决了技能调用前的信任问题。做 Agent 框架或工具链的开发者值得看看这个认证思路。

原文

03:05

Skywork@Skywork_ai

72°

Skywork AI 发布了 SkyClaw-v1.0，一个专为 OpenClaw、Hermes 和 Nanobot 优化的智能体模型。该模型在工具使用和多轮任务执行方面表现更强。同时推出了 SkyClaw-v1.0-lite，一个更快、成本更低的变体版本。这标志着智能体模型在特定工具和任务场景下的专业化方向。

AI模型智能体工具调用多轮任务 SkyClaw Skywork AI

推荐理由：做智能体开发或使用 OpenClaw、Hermes、Nanobot 的团队，现在有了一个专门优化的模型，工具调用和多轮任务能力更强，值得试试看。

原文

5月18日

22:55

Runway ML@runwayml

Runway 宣布其 Characters 功能升级，从仅能说话变为可以执行动作。用户可以通过实时视频智能体下达指令，智能体能够调用工具完成具体任务。这一更新使得 AI 角色从被动对话转向主动行动，拓展了视频生成 AI 的应用场景。开发者可以将工具调用集成到自己的产品中，实现更丰富的交互体验。Runway 在 X 上发布了相关视频和链接，供用户进一步了解。

AI产品 Runway 实时视频智能体工具调用 AI角色交互体验

推荐理由：Runway 让 AI 角色从「能说」到「能做」，做视频交互或虚拟角色产品的开发者可以直接集成工具调用，值得点开看实现细节。

原文

5月17日

11:51

elvis@omarsar0

精选

一篇关于工具使用智能体的可解释性论文揭示了模型在认知与行动之间的脱节：模型内部状态显示它知道应该调用工具，但在实际输出中却未能执行。这种不匹配率在26%到54%之间，且完全集中在认知到行动的转换阶段，而非认知本身。研究发现，模型内部的方向是可解码的，但后层最后一个token的表示几乎与产生的行动正交，导致信号丢失。该工作试图预测哪些干预措施有效，哪些无效。对于在工具调用提示上做A/B测试却遇到奇怪上限的开发者，这篇论文可能提供了很好的解释。

论文可解释性工具调用智能体认知-行动脱节 arxiv

推荐理由：做工具调用智能体开发的团队，如果遇到模型明明知道该用工具却就是不调用的怪现象，这篇论文直接点出了后层几何结构的根本原因，值得一读。

原文

5月16日

19:56

ollama@ollama

AI产品 Codex Ollama 编程助手模型推荐工具调用

推荐理由：Ollama 官方给出的 Codex 兼容模型清单，做 AI 编程的开发者可以直接参考选型，省去自己试错的成本。

原文

5月14日

18:29

Meta AI@AIatMeta

Meta 超级智能实验室推出了 Muse 系列的首个模型 Muse Spark，这是一个原生多模态推理模型，支持工具使用、视觉思维链和多智能体编排。该模型已在 Meta AI 应用和指定网站上线，并通过 API 向部分合作伙伴提供私有预览。Meta 表示未来版本将开源。Muse Spark 的发布标志着 Meta 在多模态推理和智能体协作领域的重要进展。

AI模型多模态推理模型工具调用智能体 Meta

推荐理由：做多模态应用或智能体开发的团队可以直接上手试 Muse Spark 的工具调用和视觉思维链能力，Meta 承诺未来开源也值得关注。

原文