精选理由
这篇论文揭露了一个容易被忽视的坑:智能体工具用对了,但可能找错对象。测试中有24-26%的出错率,很值得关注。
工具增强语言模型智能体在选取正确工具后仍可能对错误的外部实体执行操作。例如,请求“给Alex发邮件关于发布事宜”可能导致联系错误的Alex或附加错误文档。该研究区分了工具正确性与实体正确性,提出了企业工作流中错误实体失败的分类法。在60个任务、5个模型后端和6种工具方法的评估中,所有方法实现0.0%工具错误,但动作基线仍有24.0-26.0%的运行出现错误实体动作。实体感知方法消除了错误实体动作,但会因模糊延迟降低直接任务完成率。
AI 翻译 · 中文
工具增强语言模型智能体在选取正确工具后仍可能对错误的外部实体执行操作。例如,请求“给Alex发邮件关于发布事宜”可能导致联系错误的Alex或附加错误文档。该研究区分了工具正确性与实体正确性,提出了企业工作流中错误实体失败的分类法。在60个任务、5个模型后端和6种工具方法的评估中,所有方法实现0.0%工具错误,但动作基线仍有24.0-26.0%的运行出现错误实体动作。实体感知方法消除了错误实体动作,但会因模糊延迟降低直接任务完成率。
Tool-augmented language-model agents are often evaluated by whether they select the correct tool, produce valid API arguments, and complete the requested task. However, an agent may choose the right tool and still act on…