Agent Arena 上线：AI 智能体能力被量化排名，GPT-5.5 居首

精选理由

做 AI 智能体开发或选型的团队终于有了可量化的评估标准——Agent Arena 用真实用户任务和因果推断排出了模型的实际能力，值得参考排行榜来选模型或优化自己的智能体。

AI 摘要

Arena 平台推出 Agent Mode 和 Agent Arena 排行榜，用于评估 AI 智能体在真实任务中的表现。用户可以在 Agent Mode 中让模型执行深度研究、复杂 bash 操作、编写代码、创建幻灯片等任务，每次会话都会贡献到排行榜。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码，通过因果推断衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。目前排名第一的是 OpenAI 的 GPT-5.5（High），其次是 Anthropic 的 Claude-Opus-4.7（Thinking）和智谱的 GLM-5.1。

AI 翻译 · 中文

lmarena.aiAgentic AI is now evaluated in the Arena with Agent Mode and measured with Agent Arena. Founding Engineer Matt and Product Lead Ted show you Agent Mode in action: deep research, complex bash operations, whatever you thro…

rohanpaul_ai06-05 22:41原文
Fireworks AI06-03 16:41原文
IT之家06-04 00:04原文
AI Will06-04 01:33原文
Mustafa Suleyman06-04 18:54原文
宝玉06-04 19:24原文
Anthropic06-04 20:34原文
cat06-04 22:15原文
Lenny Rachitsky06-04 23:17原文
arXiv: Anthropic06-07 09:14原文

查看原推