00:52lmarena.ai@lmarena_ai72°Agent Arena 团队指出,传统依赖人类偏好的评测方式无法扩展至智能体场景,因为人类难以判断30分钟轨迹中的数百次工具调用。他们构建了基于真实使用轨迹的客观信号评测方法,包括Bash错误、工具幻觉和“疯狂信号”等指标。这种方法能更准确地评估智能体在复杂任务中的表现,避免人类主观判断的局限性。该评测方法已应用于Agent Arena排行榜,为开发者提供更可靠的模型性能参考。AI模型智能体评测方法Agent Arena工具调用客观信号推荐理由:智能体评测一直是个难题,Agent Arena 用真实轨迹信号替代人类偏好,做智能体开发的团队可以直接参考这套方法论来改进自己的评测体系。原文