精选理由
这篇论文点破了智能体评测的常见误区——只看模型不看系统,做智能体开发的团队值得读,能帮你重新思考系统架构的优先级。
AI 智能体的能力不仅取决于模型本身,更依赖于其周围的系统(称为“harness”),包括记忆、工具、上下文、路由、检查和权限。当前许多智能体被误判为仅由模型驱动,而实际行为受这些系统组件影响更大。论文指出,进步应来自扩展 harness 的三个部分:更好的上下文控制、更可信的记忆、以及更优的工具或辅助智能体路由。长上下文不等于可用上下文,记忆多不等于可信,工具多不等于知道何时使用。两个智能体可能得出相同答案,但一个可能消耗更多 token、做出更冒险的工具调用或携带损坏的记忆。未来前沿不是单纯扩展模型,而是扩展系统纪律。
AI 翻译 · 中文
AI 智能体的能力不仅取决于模型本身,更依赖于其周围的系统(称为“harness”),包括记忆、工具、上下文、路由、检查和权限。当前许多智能体被误判为仅由模型驱动,而实际行为受这些系统组件影响更大。论文指出,进步应来自扩展 harness 的三个部分:更好的上下文控制、更可信的记忆、以及更优的工具或辅助智能体路由。长上下文不等于可用上下文,记忆多不等于可信,工具多不等于知道何时使用。两个智能体可能得出相同答案,但一个可能消耗更多 token、做出更冒险的工具调用或携带损坏的记忆。未来前沿不是单纯扩展模型,而是扩展系统纪律。
Stronger agents will not come only from larger models, but from better systems around them. The problem is that many AI agents are judged as if the model alone did the work, even though the real behavior also depends on …