工具调用·general

工具调用

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
37
§ 01综述

工具调用(Tool Calling)正成为大型语言模型(LLM)能力升级的关键方向,近期在强化学习训练、评测体系、开发框架和应用落地等多方面取得显著进展,同时也暴露出可靠性与可控性挑战。

  • 训练方法突破:APPO 提出细粒度决策点强化学习方法,在工具调用任务的每个决策步骤引入奖励信号,显著提升了 AI 智能体在复杂环境中的工具选择与顺序调用能力,为训练更自主的智能体提供了新思路(APPO:细粒度决策点强化学习提升AI智能体工具调用能力)。
  • 评测体系革新:Agent Arena 发布基于真实用户交互轨迹的智能体排行榜,利用实际执行信号而非人工偏好来评价工具调用效果,GPT-5.5 High 在该榜单中表现领先,推动评测向更客观、更贴近真实应用场景转变(Agent Arena 评测:用真实轨迹信号替代人类偏好)。
  • 开发框架与工具优化:OpenRouter Agent SDK 新增人机协作功能,在工具调用过程中自动处理暂停与恢复,提升复杂任务中的人类介入效率;AI SDK 7 的 canary 版本则提供了更灵活的调用审批配置;LangChain 发布 Deep Agents 开源框架,支持多步规划、工具调用与子代理协作,降低开发门槛(OpenRouter Agent SDK 新增人机协作工具AI SDK 7 canary 发布LangChain 发布 Deep Agents)。
  • 应用与生态扩展:阿里 Qwen 团队发布 Qwen3.7-Plus,集成视觉、深度推理与工具调用能力;同时,EVA-Bench Data 2.0 发布涵盖 121 个工具和 213 个场景的评测数据集,加速工具调用技术标准化(阿里Qwen团队发布Qwen3.7-PlusEVA-Bench Data 2.0)。
  • 当前焦点:如何提升工具调用的可靠性与容错性,避免如 Claude Code 4.8 升级后出现的解析失败频发问题(Claude Code 4.8 升级后工具调用解析失败频发)。

    未来观察点:强化学习与多模态融合能否进一步降低人机协作成本;评测标准的统一程度;以及工具调用在移动端等复杂场景中的适应性与可解释性(如 AgentMob 等方向)。

    § 02相关报道10 条在档
    1. 01
      AI SDK 用 Open Policy Agent 防止智能体失控
      AI SDK
    2. 02
      APPO:细粒度决策点强化学习提升AI智能体工具调用能力
      arXiv cs.AI
    3. 03
      Agent Arena 评测:用真实轨迹信号替代人类偏好
      lmarena.ai
    4. 04
      OpenRouter Agent SDK 新增人机协作工具,自动处理暂停与恢复
      OpenRouter
    5. 05
      AI SDK 7 canary 发布:工具调用审批配置更灵活
      AI SDK
    6. 06
      LangChain 发布 Deep Agents:开源智能体框架,支持规划、工具调用与子代理
      LangChain
    7. 07
      Agent Arena 发布真实世界智能体排行榜,GPT-5.5 High 领先
      rohanpaul_ai
    8. 08
      EVA-Bench Data 2.0:3领域121工具213场景
      Hugging Face: Blog
    9. 09
      AgentMob:无需训练的LLM智能体实现高效可解释移动预测
      arXiv cs.AI
    10. 10
      Claude Code 4.8 升级后工具调用解析失败频发
      小互
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/%E5%B7%A5%E5%85%B7%E8%B0%83%E7%94%A8