工具调用 · AI 话题观测

§ 01综述

工具调用（Tool Calling）正成为大型语言模型（LLM）能力升级的关键方向，近期在强化学习训练、评测体系、开发框架和应用落地等多方面取得显著进展，同时也暴露出可靠性与可控性挑战。

训练方法突破：APPO 提出细粒度决策点强化学习方法，在工具调用任务的每个决策步骤引入奖励信号，显著提升了 AI 智能体在复杂环境中的工具选择与顺序调用能力，为训练更自主的智能体提供了新思路（APPO：细粒度决策点强化学习提升AI智能体工具调用能力）。

评测体系革新：Agent Arena 发布基于真实用户交互轨迹的智能体排行榜，利用实际执行信号而非人工偏好来评价工具调用效果，GPT-5.5 High 在该榜单中表现领先，推动评测向更客观、更贴近真实应用场景转变（Agent Arena 评测：用真实轨迹信号替代人类偏好）。

开发框架与工具优化：OpenRouter Agent SDK 新增人机协作功能，在工具调用过程中自动处理暂停与恢复，提升复杂任务中的人类介入效率；AI SDK 7 的 canary 版本则提供了更灵活的调用审批配置；LangChain 发布 Deep Agents 开源框架，支持多步规划、工具调用与子代理协作，降低开发门槛（OpenRouter Agent SDK 新增人机协作工具；AI SDK 7 canary 发布；LangChain 发布 Deep Agents）。

应用与生态扩展：阿里 Qwen 团队发布 Qwen3.7-Plus，集成视觉、深度推理与工具调用能力；同时，EVA-Bench Data 2.0 发布涵盖 121 个工具和 213 个场景的评测数据集，加速工具调用技术标准化（阿里Qwen团队发布Qwen3.7-Plus；EVA-Bench Data 2.0）。

当前焦点：如何提升工具调用的可靠性与容错性，避免如 Claude Code 4.8 升级后出现的解析失败频发问题（Claude Code 4.8 升级后工具调用解析失败频发）。

未来观察点：强化学习与多模态融合能否进一步降低人机协作成本；评测标准的统一程度；以及工具调用在移动端等复杂场景中的适应性与可解释性（如 AgentMob 等方向）。

§ 02相关报道10 条在档

§ 03邻近话题