工具调用(Tool Calling)正成为大型语言模型(LLM)能力升级的关键方向,近期在强化学习训练、评测体系、开发框架和应用落地等多方面取得显著进展,同时也暴露出可靠性与可控性挑战。
当前焦点:如何提升工具调用的可靠性与容错性,避免如 Claude Code 4.8 升级后出现的解析失败频发问题(Claude Code 4.8 升级后工具调用解析失败频发)。
未来观察点:强化学习与多模态融合能否进一步降低人机协作成本;评测标准的统一程度;以及工具调用在移动端等复杂场景中的适应性与可解释性(如 AgentMob 等方向)。