全部 AI 动态 · AI 热点

6月30日

01:33

AWS Machine Learning Blog@Joshua Lacy

精选

本文介绍如何使用Amazon Bedrock AgentCore的内置可观测性功能调试生产环境中的智能体故障。文章涵盖常见的故障模式，如无限循环和工具调用失败。通过追踪和指标分析智能体行为，并提供结构化工作流来解决问题。本文是两部分系列的第一部分，第二部分将讨论性能优化和内存管理。

技巧 Amazon Bedrock AgentCore 可观测性智能体工具调用

推荐理由：AWS博客教你用Bedrock AgentCore内置观察功能排查生产智能体故障，比如无限循环和工具调用失败，省去自己搭建监控的麻烦。

原文

6月28日

15:15

marktechpost@Sana Hassan

精选

本教程基于 Hugging Face 的 Fable 5 Traces 数据集，在 Colab 中构建稳定工作流。手动解析合并的 JSONL 文件避免依赖问题，检查仓库文件并标准化工具调用。通过审计结构、脱敏密钥和可视化分布，导出安全的无 CoT 聊天数据集。最后使用纯 Python 的朴素贝叶斯模型在 traces 上训练基线，无需复杂框架。

技巧 Fable 5 Traces Colab 工具调用数据审计基线模型

推荐理由：手把手教你用 Colab 搞定 Fable 5 Traces 数据，从解析到审计再到训练基线，全流程避坑实战。

原文

6月26日

16:09

marktechpost@Sana Hassan

本教程分步指导你在 Google Colab 中从零构建一个轻量级 AI 智能体，灵感来源于 Nanobot 架构。内容包括：实现提供者抽象层、注册工具调用功能、添加会话记忆管理、集成生命周期钩子、定义技能模块，以及部署一个 MCP 风格的工具服务器。全程不使用外部框架，让你理解消息、工具、记忆与模型响应的协作机制。最终得到一个可对接真实 LLM 提供者的智能体循环。

技巧 Nanobot Google Colab MCP服务器智能体工具调用

推荐理由：手把手教你用 Colab 搭一个能调用工具、记住对话的 AI 智能体，还把 MCP 服务器也揉进去了，代码全开源。

原文

6月24日

22:46

LangChain@LangChainAI

精选

Jeff Barg在Interrupt会议上透露，Clay每月运行3.5亿个GTM智能体。他指出，缓存可将LLM调用成本降低高达70%。限制工具调用范围不仅能节省成本，还能提升输出质量。在多租户负载下，引入公平队列机制至关重要。

技巧 Clay GTM agents LLM成本缓存工具调用

推荐理由：做AI智能体上线的小伙伴必看，Clay的AI负责人亲自讲了怎么降本70%和优化队列，干货12分钟。

原文

00:33

Philipp Schmid@_philschmid

精选71°

这篇指南由 Google AI Studio 发布，帮助开发者上手 Gemini Interactions API。它通过 `previous_interaction_id` 实现对话链式衔接，演示了如何启用和处理 streaming 响应。指南还展示了执行本地函数调用的完整循环，并介绍了在远程沙箱中运行 Antigravity Agent 的方法。

技巧 Gemini Interactions API Google 智能体工具调用

推荐理由：Google 官方出的 Gemini 交互 API 教程，从 streaming 到 agent 沙箱都有代码示例，想写多轮工具调用可以看这个。

原文

6月23日

05:06

LangChain@LangChainAI

精选

Deep Agents v0.6 新增代码解释器，代理可在运行时调用工具。中间结果保留在模型上下文之外，仅传回相关输出。这减少了往返次数和 token 浪费。该版本由 LangChain 发布。

AI产品 Deep Agents LangChain 代码解释器智能体工具调用

推荐理由：Deep Agents v0.6 出代码解释器了！运行时调工具，中间结果不占上下文，省 token 还少跑几趟。看详情。

原文

6月19日

14:36

小互@imxiaohu

豆包实时语音模型3.0 API 正式上线，支持全双工模式，可同时听和说并随时插话。采用端到端语音进语音出，无需转录，响应更快更自然。模型能精准遵循指令，例如在多人聊天中设定规则后静待话题出现再参与。支持自定义工具调用，可在实时对话中完成预定日历、发邮件、总结文档等任务，向语音 Agent 迈进。

AI模型豆包实时语音模型3.0 全双工语音Agent 工具调用

推荐理由：豆包出了3.0语音模型，能同时听说、随时插话，还能在对话里调工具办事情，比传统语音助手强一大截。

原文

11:38

arXiv cs.AI@Md Nayem Uddin, Amir Saeidi, Eduardo Blanco, Chitta Baral

LedgerAgent是一种推理时方法，维护工具调用智能体的观察任务状态在独立账本中，并渲染到提示中。该方法在执行环境变更工具调用前检查状态依赖策略约束，阻止违反。在四个客户服务领域和开源/闭源混合模型面板上，相比标准提示工具调用方法，平均pass^k提升。更严格的多试一致性指标下增益最大。

论文 LedgerAgent 智能体工具调用策略约束

推荐理由：这篇论文提出了LedgerAgent，用独立账本管理状态，防止智能体用过时信息或违反政策，在多个客服场景和模型上明显提升工具调用的准确率。

原文

6月18日

12:59

@atomic_chat_hq@atomic_chat_hq

精选

Liquid 的 LFM2.5-8B-A1B（8B总参、1B激活）在 MacBook Pro M5 Max 上本地运行，与 OpenAI 的 gpt-oss-20b 对比工具调用能力。面对需执行7个工具调用的旅行规划任务，LFM2.5-8B-A1B 全部成功，而 gpt-oss-20b 仅完成 3 个。内存方面，LFM2.5-8B-A1B 仅用 4.8 GB，远低于对手的 11 GB。速度上，LFM2.5-8B-A1B 达到 266 tok/s，总耗时 6.9 s，而 gpt-oss-20b 为 146 tok/s 和 15.0 s。该模型利用 38T 训练 token 的 MoE 架构，实现了小参数下的高效工具调用。

AI模型 Liquid LFM2.5-8B-A1B gpt-oss-20b 工具调用 MoE

推荐理由：Liquid 这个 8B MoE 模型只用 4.8GB 内存就比 OpenAI 20B 模型多调用了一倍工具，速度还快两倍，本地跑 agent 任务很实用。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

08:02

AI SDK@aisdk

AI SDK 推出新功能，允许开发者通过 Open Policy Agent 为智能体工具调用设置运行时防护栏。这些策略以代码形式定义，可在智能体执行过程中实时拦截和审核工具调用，防止其做出意外或危险的操作。该功能解决了 AI 智能体在生产环境中可能“失控”的核心安全问题，让开发者能更安全地部署自主代理。目前该功能已可用，适合需要精细控制智能体行为的团队。

AI产品智能体安全/防护 Open Policy Agent AI SDK 工具调用

推荐理由：做 AI 智能体的开发者终于有了运行时安全网——用代码定义策略来防止工具调用失控，比事后补救靠谱太多，建议直接集成到你的 agent 工作流里。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:09

arXiv cs.AI@Xucong Wang, Ziyu Ma, Yong Wang, Yuxiang Ji, Shidong Yang, Guanhua Chen, Pengkun Wang, Xiangxiang Chu

精选72°

APPO（Agentic Procedural Policy Optimization）是一种新的强化学习方法，旨在改进大语言模型智能体的多轮工具使用能力。传统方法在粗粒度的交互单元（如工具调用边界）上分配信用，难以识别影响最终结果的关键中间决策。APPO通过分支评分（Branching Score）在序列中细粒度地选择分支点，并结合程序级优势缩放（procedure-level advantage scaling）更精确地分配信用。实验表明，APPO在13个基准测试上平均提升近4个百分点，同时保持高效的工具调用和可解释性。这项研究解决了智能体强化学习中信用分配不精确的问题，对开发更可靠、高效的AI智能体具有重要意义。

论文强化学习智能体工具调用信用分配 APPO

推荐理由：做AI智能体强化学习的团队终于有了更精细的信用分配方法——APPO在13个基准上稳定提升4个点，且不牺牲效率，做多轮工具调用优化的开发者值得一试。

原文

00:52

lmarena.ai@lmarena_ai

72°

Agent Arena 团队指出，传统依赖人类偏好的评测方式无法扩展至智能体场景，因为人类难以判断30分钟轨迹中的数百次工具调用。他们构建了基于真实使用轨迹的客观信号评测方法，包括Bash错误、工具幻觉和“疯狂信号”等指标。这种方法能更准确地评估智能体在复杂任务中的表现，避免人类主观判断的局限性。该评测方法已应用于Agent Arena排行榜，为开发者提供更可靠的模型性能参考。

AI模型智能体评测方法 Agent Arena 工具调用客观信号

推荐理由：智能体评测一直是个难题，Agent Arena 用真实轨迹信号替代人类偏好，做智能体开发的团队可以直接参考这套方法论来改进自己的评测体系。

原文

6月10日

03:24

OpenRouter@OpenRouterAI

OpenRouter 发布了其 Agent SDK 的新功能：人机协作工具。该 SDK 能自动处理常规工具调用，对高风险操作则暂停执行等待人工审核。它支持在重启后持久化状态，并验证人类响应是否符合预定义模式，之后能无缝恢复执行。这一更新让开发者可以更安全地构建需要人工介入的 AI 代理流程。

AI产品 OpenRouter Agent SDK 人机协作工具调用状态持久化

推荐理由：做 AI 代理应用的开发者终于有了现成的方案来处理人机协作的痛点——暂停、恢复、状态持久化，建议直接集成到你的工作流中。

原文

00:44

AI SDK@aisdk

AI SDK 7 canary 版本发布，新增工具调用审批配置功能。开发者现在可以在 ToolLoopAgent、generateText 和 streamText 中直接为任意工具设置审批逻辑，支持三种方式：使用常量进行工具特定审批、使用函数进行工具特定审批、以及使用自定义逻辑的通用审批函数。这一更新提升了 AI 应用的安全性和可控性，尤其适合需要人工审核工具调用的场景。

AI产品 AI SDK 工具调用审批配置安全控制开发者工具

推荐理由：做 AI 应用开发的团队终于可以精细控制工具调用了——不用再担心模型擅自执行敏感操作，建议用 AI SDK 的开发者立即升级试试。

原文

6月9日

03:04

LangChain@LangChainAI

精选

LangChain 推出了 Deep Agents，一个开源智能体框架，旨在构建能够规划、使用工具、委托子代理、写入文件并长时间工作的智能体。该框架提供了一个可管理的环境，并集成到 LangSmith 中，为开发者提供持久化的智能体运行和监控能力。这一发布降低了构建复杂、长周期智能体的门槛，适合需要自动化多步骤任务的团队。

AI产品智能体开源/仓库 LangChain LangSmith 工具调用

推荐理由：LangChain 的 Deep Agents 解决了构建长周期、多步骤智能体的痛点，做自动化流程或复杂任务编排的开发者可以直接上手试试。

原文

6月6日

06:41

rohanpaul_ai@rohanpaul_ai

Agent Arena 发布了一个全新的智能体排行榜，不再依赖传统基准测试中的孤立问题，而是评估 AI 模型在真实用户任务中的表现，包括编写代码、构建应用、研究主题、创建文档和分析文件等。该排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码的数据，综合考量任务成功、可引导性、错误恢复、用户表扬/投诉和工具幻觉等信号。结果显示，GPT-5.5 High 以 +10.7% 的净改进率领先，Claude Opus 4.7 Thinking 和 GPT-5.4 High 紧随其后。该排行榜的核心价值在于将智能体视为工作系统，综合评估模型选择、工具使用、恢复行为和用户满意度。

AI模型智能体排行榜 GPT-5.5 Claude Opus 4.7 工具调用

推荐理由：做智能体开发和评测的团队终于有了一个贴近真实工作场景的排行榜——Agent Arena 用 30 万+ 任务和 200 万+ 工具调用数据，告诉你哪个模型在写代码、做研究、处理文档时真正靠谱，值得点开看看你的模型排第几。

原文

6月4日

20:34

20:34Hugging Face: Blog（博客/媒体）

精选

ServiceNow AI 发布了 EVA-Bench Data 2.0，一个面向企业级 AI 智能体的评估基准数据集。该数据集覆盖 3 个领域（IT、HR、客户服务），包含 121 种工具和 213 个场景，旨在测试 AI 智能体在复杂企业环境中的工具调用和任务执行能力。相比第一版，新版本增加了更多真实世界的交互场景和工具多样性，为开发者提供了更全面的评估标准。这对于希望在企业场景中部署 AI 智能体的团队来说，是一个重要的参考资源。

AI产品智能体评估基准企业AI 工具调用 ServiceNow

推荐理由：企业 AI 智能体评估终于有了更贴近真实场景的基准——3 领域 121 工具覆盖 IT、HR、客服，做企业级 AI 落地的团队可以直接用这个数据集来测试自己的智能体。

原文

10:56

arXiv cs.AI@Linyao Chen, Qinlao Zhao, Zechen Li, Mingming Li, Likun Ni, Jinyu Chen, Yuhao Yao, Xuan Song, Noboru Koshizuka, Hiroki Kobayashi

AgentMob 提出了一种无需训练的 LLM 驱动智能体框架，用于个体级移动预测。它通过快速路径处理常规出行，对模糊情况则触发迭代工具调用，结合历史轨迹、停留概率和地理证据进行决策。在三个数据集上，AgentMob 在无需训练的 LLM 方法中表现最佳，GPT-5.4 在 BW 数据集上达到 71.42% 的 Acc@1。该方法显著提升了模糊预测的准确性，并提供了决策透明度。代码已开源。

论文移动预测 LLM智能体可解释性工具调用开源/仓库

推荐理由：做城市模拟、交通规划或政策分析的团队，终于有了一个无需训练就能解释预测结果的方案——AgentMob 在模糊场景下准确率提升 18%，建议直接试一下开源代码。

原文

6月3日

00:37

小互@imxiaohu

用户反馈 Claude Code 升级至 4.8 版本后，频繁出现工具调用无法解析的错误，即使重试也失败。该问题影响开发者的自动化工作流，导致任务中断。目前官方尚未回应，社区中已有 7 条讨论，1772 次浏览，显示问题较为普遍。

AI产品 Claude Code 工具调用 Bug/报错开发者体验升级问题

推荐理由：Claude Code 重度用户注意了——4.8 版本的解析 bug 会打断你的自动化流程，遇到类似问题的开发者可以看看评论区是否有临时方案。

原文

6月2日

17:15

marktechpost@Michal Sutter

83°

阿里Qwen团队在百炼平台推出Qwen3.7-Plus，这是一个多模态智能体模型。它不仅能理解图像和视频，还新增了自主编程、工具调用和深度推理能力。该模型支持视觉理解、复杂推理和自动化迭代，可应用于更广泛的AI任务场景。这标志着阿里在构建全能型AI智能体方面迈出重要一步。

AI模型 Qwen3.7-Plus 多模态智能体工具调用百炼平台

推荐理由：Qwen3.7-Plus把视觉、推理和工具调用整合到一个模型里，做多模态应用的开发者可以直接在百炼平台体验，省去拼接多个模型的麻烦。

原文

12:03

arXiv cs.AI@Bardia Mohammadi, Lars Klein, Akhil Arora, Laurent Bindschaedler

论文提出“幽灵工具调用”概念，指AI代理在投机执行未来工具调用时，向外部服务泄露用户意图的问题。即使代理后续放弃该分支，外部观察者已获取的信息无法撤回。作者提出“投机工具隐私契约”运行时抽象，将提交前的观察视为独立于状态变更的一等效应。原型系统评估了12种策略，发现只有发布时修改或抑制调用参数/目标的策略才能减少推断，事后过滤、只读限制和访问控制列表均无效。

论文 AI代理隐私保护投机执行工具调用论文

推荐理由：做AI代理安全与隐私的开发者会关心——投机执行加速了响应，却让用户意图裸奔给外部服务，这篇论文给出了可落地的运行时方案，值得研究隐私工程的团队细读。

原文

08:14

岚叔@lufzzliz

AI模型 Qwen3.7-Plus 多模态 Agent 工具调用性价比

推荐理由：Qwen3.7-Plus 把多模态 Agent 的实用门槛又拉低了一截，做自动化工作流或 GUI 操作的开发者可以直接关注，性价比和功能覆盖都很能打。

原文

5月31日

05:10

rohanpaul_ai@rohanpaul_ai

精选72°

atomic.chat 在 MacBook Pro M5 Max 64GB 上对比了本地 AI 智能体的工具调用能力。Liquid 的 LFM2.5-8B-A1B 模型（8B 参数，MoE 架构）在规划旅行任务中，成功完成所有 7 次外部工具调用（天气查询、货币转换、邮件和提醒），而 gpt-oss-20b 仅完成 3/7 次。LFM2.5-8B-A1B 运行速度达 266 tok/s，内存占用仅 4.8GB，而 gpt-oss-20b 为 146 tok/s 和 11GB。这表明工具调用本质上是控制问题而非语言问题，更小但训练更聚焦的模型可以胜过更大但泛化的模型。

AI模型本地模型工具调用智能体 LFM2.5-8B-A1B gpt-oss-20b

推荐理由：做本地 AI 智能体或工具调用开发的团队，这个对比直接告诉你：模型大小不是关键，控制能力才是。LFM2.5-8B-A1B 的性价比碾压，值得在本地部署试试。

原文

5月30日

11:15

Geek@geekbb

精选

Nous Research 为其 Hermes Agent 引入了 Tool Search 功能，使智能体能够按需加载所需工具，而非一次性加载全部。这一改进提升了资源利用效率和响应速度，尤其适合复杂任务场景。该功能通过动态工具选择机制，减少了不必要的计算开销。对于构建高效智能体的开发者而言，这是一项实用的优化。

AI产品智能体工具调用 Nous Research Hermes Agent 效率优化

推荐理由：Hermes Agent 的 Tool Search 解决了智能体工具冗余加载的痛点，做 Agent 开发的团队可以直接参考实现，提升任务执行效率。

原文

01:17

berryxia@berryxia

Liquid AI 发布 LFM2.5-8B-A1B 模型，这是一个 8B MoE 模型，但仅需 1.5B 活跃参数即可运行。该模型经过 38T tokens 训练和大规模 RL，支持 128K 上下文，工具调用和多步 Agent 能力接近 4 倍参数模型。单台笔记本即可运行完整本地 Agent 循环，延迟低且全程隐私安全，无需调用 GPT-4o 或 Claude。支持 llama.cpp、MLX、vLLM 等框架，覆盖 Apple、NVIDIA、AMD 硬件，表明本地 Agent 落地比预期更快。

AI模型 Liquid AI LFM2.5-8B-A1B MoE 本地Agent 工具调用

推荐理由：本地 Agent 开发者终于不用等大模型了——1.5B 活跃参数就能跑出接近 4 倍参数模型的效果，笔记本就能部署，隐私和延迟都解决了，做本地自动化的建议直接试。

原文

5月29日

11:17

pandaily@contact@pandaily.com (Pandaily)

78°

Stepfun 开源了 Step 3.7 Flash，这是一个 196B 参数的稀疏 MoE 大语言模型，专为智能体工作流优化。该模型推理速度达 400 tokens/s，并原生支持工具调用，能高效执行复杂任务。开源此举旨在推动智能体生态发展，降低开发者构建自主系统的门槛。Step 3.7 Flash 在多项基准测试中表现优异，尤其适合需要快速响应和工具集成的场景。

AI模型 Step 3.7 Flash MoE 智能体工具调用开源

推荐理由：做智能体开发的团队终于有了一个原生支持工具调用且速度极快的开源模型——400 tokens/s 的推理速度能显著提升任务执行效率，建议直接上手测试。

原文

07:36

marktechpost@Asif Razzaq

Liquid AI 发布了 LFM2.5-8B-A1B，一款面向端侧设备的混合专家（MoE）模型。该模型总参数量为 8.3B，但每次推理仅激活 1.5B 参数，大幅降低了计算和内存需求。它支持 128K 上下文长度，具备推理和工具调用能力，可在消费级硬件上运行。这标志着端侧 AI 模型在效率与能力之间取得了重要平衡，为移动设备和边缘计算场景提供了新的选择。

AI模型端侧模型 MoE Liquid AI 推理模型工具调用

推荐理由：端侧部署大模型一直受限于算力和内存，LFM2.5-8B-A1B 用 1.5B 激活参数实现 128K 上下文和工具调用，做移动端 AI 应用或边缘推理的开发者可以直接评估其性能。

原文

5月28日

05:08

LangChain@LangChainAI

LangChain 发布了 Managed Deep Agents，专为需要长时间运行、使用工具、保持上下文并生成产物的智能体设计。该产品支持多种应用场景，包括客服与分类智能体、研究智能体、编程智能体、数据分析智能体和内部运营智能体。它解决了传统智能体在长周期任务中上下文丢失和工具调用不稳定的问题。团队可以基于此构建更可靠、更自主的自动化工作流。

AI产品 LangChain 智能体长周期任务自动化工具调用

推荐理由：做复杂自动化任务的团队终于有了专门的长周期智能体方案——LangChain 的 Managed Deep Agents 解决了上下文丢失和工具调用稳定性问题，做客服、研究、编程或数据分析的开发者可以直接用来构建更可靠的自主工作流。

原文

5月26日

13:13

13:13IT之家（博客/媒体）

精选

昆仑万维天工 AI 推出 SkyClaw-v1.0 及轻量版 SkyClaw-v1.0-lite，支持百万 token 上下文，专为真实智能体工作流设计。模型在复杂工具调用、多轮任务、代码生成等场景表现优异，全面超越 Minimax 2.7、DeepSeek V4 Flash 等开源模型，性能接近更大规模顶级模型。定价低于同类一半，已接入天工 Skywork 平台，即日起开放 2-4 周免费试用。

AI模型 Agent 模型百万上下文开源/仓库工具调用昆仑万维

推荐理由：做 Agent 开发或自动化工作流的团队终于有了性价比之选——SkyClaw 百万上下文且定价低于同类一半，建议直接免费试用看看能否替代现有方案。

原文

5月25日

10:21

pandaily@contact@pandaily.com (Pandaily)

83°

阿里巴巴的 Qwen 3.7 Max 模型完成了一次长达 35 小时的自主任务运行，期间执行了 1,158 次工具调用。这一表现展示了模型在长时间、多步骤任务中的持续稳定能力，令海外开发者印象深刻。该成果凸显了 Qwen 系列在复杂自动化场景下的潜力，可能推动更多企业探索 AI 驱动的长周期工作流。

AI模型 Qwen 3.7 Max 阿里巴巴自主任务工具调用长任务

推荐理由：Qwen 3.7 Max 证明了 AI 可以稳定执行 35 小时的长任务，做自动化工作流或复杂项目管理的开发者值得关注，这可能是你寻找的可靠长任务模型。

原文

5月21日

08:00

OpenRouter@OpenRouterAI

76°

OpenRouter 宣布，平台上所有支持工具调用的模型现在都可以自主决定何时进行网络搜索、搜索什么内容以及搜索多少次，实现了智能化的网络搜索与获取功能。同时，OpenRouter 新增了 @p0 作为网络搜索提供商。这一更新让开发者无需手动配置搜索逻辑，模型能根据任务需求自动调用搜索工具，提升了信息获取的灵活性和效率。对于需要实时信息或外部知识的 AI 应用，这是一个实用的功能增强。

AI产品 OpenRouter 工具调用网络搜索智能体 AI 产品

推荐理由：做 AI 应用开发的团队不用再自己写搜索调度逻辑了——模型自己决定搜什么、搜几次，OpenRouter 用户可以直接用起来。

原文

5月20日

18:28

Skywork@Skywork_ai

Skywork 发布 SkyClaw-v1.0 智能体模型，专为 OpenClaw、Hermes 和 Nanobot 优化，具备更强的工具使用和多轮任务执行能力。该模型现已作为一级提供商正式集成到 nanobot 配置中，用户只需填入 API 密钥即可使用。同时推出的还有 SkyClaw-v1.0-lite，速度更快、成本更低。

AI模型智能体工具调用 SkyClaw nanobot 开源/仓库

推荐理由：智能体开发者终于有了一个专门为工具调用和多轮任务优化的模型，直接接入 nanobot 就能用，做 agent 编排的团队建议试试。

原文

03:29

NVIDIA AI@NVIDIAAI

Nemotron Labs 发布了一项关于智能体技能执行前认证的技术方案，旨在解决 AI Agent 在调用外部工具或技能时的安全与可信问题。该方法在 Agent 执行动作前对技能进行验证，确保只有经过授权的技能才能被调用，从而降低误操作和恶意利用的风险。该技术对于构建安全可靠的 Agent 系统具有重要意义，尤其适用于金融、医疗等对安全性要求高的场景。Nemotron Labs 通过直播演示了该方案的具体实现，吸引了开发者社区的关注。

AI产品智能体安全/认证工具调用 Nemotron Labs AI Agent

推荐理由：Agent 安全是当前 AI 落地的关键瓶颈，Nemotron 的方案直接解决了技能调用前的信任问题。做 Agent 框架或工具链的开发者值得看看这个认证思路。

原文

03:05

Skywork@Skywork_ai

72°

Skywork AI 发布了 SkyClaw-v1.0，一个专为 OpenClaw、Hermes 和 Nanobot 优化的智能体模型。该模型在工具使用和多轮任务执行方面表现更强。同时推出了 SkyClaw-v1.0-lite，一个更快、成本更低的变体版本。这标志着智能体模型在特定工具和任务场景下的专业化方向。

AI模型智能体工具调用多轮任务 SkyClaw Skywork AI

推荐理由：做智能体开发或使用 OpenClaw、Hermes、Nanobot 的团队，现在有了一个专门优化的模型，工具调用和多轮任务能力更强，值得试试看。

原文

5月18日

22:55

Runway ML@runwayml

Runway 宣布其 Characters 功能升级，从仅能说话变为可以执行动作。用户可以通过实时视频智能体下达指令，智能体能够调用工具完成具体任务。这一更新使得 AI 角色从被动对话转向主动行动，拓展了视频生成 AI 的应用场景。开发者可以将工具调用集成到自己的产品中，实现更丰富的交互体验。Runway 在 X 上发布了相关视频和链接，供用户进一步了解。

AI产品 Runway 实时视频智能体工具调用 AI角色交互体验

推荐理由：Runway 让 AI 角色从「能说」到「能做」，做视频交互或虚拟角色产品的开发者可以直接集成工具调用，值得点开看实现细节。

原文

5月17日

11:51

elvis@omarsar0

精选

一篇关于工具使用智能体的可解释性论文揭示了模型在认知与行动之间的脱节：模型内部状态显示它知道应该调用工具，但在实际输出中却未能执行。这种不匹配率在26%到54%之间，且完全集中在认知到行动的转换阶段，而非认知本身。研究发现，模型内部的方向是可解码的，但后层最后一个token的表示几乎与产生的行动正交，导致信号丢失。该工作试图预测哪些干预措施有效，哪些无效。对于在工具调用提示上做A/B测试却遇到奇怪上限的开发者，这篇论文可能提供了很好的解释。

论文可解释性工具调用智能体认知-行动脱节 arxiv

推荐理由：做工具调用智能体开发的团队，如果遇到模型明明知道该用工具却就是不调用的怪现象，这篇论文直接点出了后层几何结构的根本原因，值得一读。

原文

5月16日

19:56

ollama@ollama

AI产品 Codex Ollama 编程助手模型推荐工具调用

推荐理由：Ollama 官方给出的 Codex 兼容模型清单，做 AI 编程的开发者可以直接参考选型，省去自己试错的成本。

原文

5月14日

18:29

Meta AI@AIatMeta

Meta 超级智能实验室推出了 Muse 系列的首个模型 Muse Spark，这是一个原生多模态推理模型，支持工具使用、视觉思维链和多智能体编排。该模型已在 Meta AI 应用和指定网站上线，并通过 API 向部分合作伙伴提供私有预览。Meta 表示未来版本将开源。Muse Spark 的发布标志着 Meta 在多模态推理和智能体协作领域的重要进展。

AI模型多模态推理模型工具调用智能体 Meta

推荐理由：做多模态应用或智能体开发的团队可以直接上手试 Muse Spark 的工具调用和视觉思维链能力，Meta 承诺未来开源也值得关注。

原文

5月13日

21:36

21:36Simon Willison’s Weblog（博客/媒体）

Simon Willison 分享了一个技巧：在脚本的 shebang 行中直接调用 LLM，让自然语言文本文件像可执行脚本一样运行。最简单的用法是 `#!/usr/bin/env -S llm -f`，后面跟自然语言指令即可生成内容（如 SVG）。还可以通过 `-T` 选项调用工具（如获取当前时间写俳句），甚至嵌入 YAML 模板定义 Python 函数作为工具，实现复杂计算。这个模式让 AI 模型无缝融入 Unix 脚本生态，开发者可以直接用自然语言编写可执行脚本。

技巧 LLM shebang 脚本技巧自然语言编程工具调用

推荐理由：这个技巧把 LLM 变成了 Unix 脚本的一等公民，做自动化或 CLI 工具的开发者可以直接用自然语言写可执行脚本，省去解析参数的麻烦。

原文

21:35

21:35Moonshot AI: Kimi Blog（资讯）

月之暗面推出 Kimi Playground，一个专门用于体验 Kimi K2 模型工具调用能力的在线平台。该平台提供直观的交互界面，让开发者无需编写代码即可测试 K2 的多种工具调用场景，包括搜索、计算、代码执行等。Kimi K2 是月之暗面最新发布的模型，在工具调用方面有显著提升。Playground 的推出降低了开发者体验和评估模型能力的门槛，有助于加速基于 K2 的应用开发。

AI产品 Kimi K2 工具调用 Playground 月之暗面开发者体验

推荐理由：月之暗面把 K2 的工具调用能力做成了可交互的 Playground，做 Agent 或工具链集成的开发者不用写一行代码就能摸清模型边界，值得上手试试。

原文