Agent Arena 上线:AI 智能体能力被量化排名,GPT-5.5 居首

Agentic AI is now evaluated in the Arena with Agent Mode and measured with Agent Arena. Founding En...

精选理由

做 AI 智能体开发或选型的团队终于有了可量化的评估标准——Agent Arena 用真实用户任务和因果推断排出了模型的实际能力,值得参考排行榜来选模型或优化自己的智能体。

AI 摘要

Arena 平台推出 Agent Mode 和 Agent Arena 排行榜,用于评估 AI 智能体在真实任务中的表现。用户可以在 Agent Mode 中让模型执行深度研究、复杂 bash 操作、编写代码、创建幻灯片等任务,每次会话都会贡献到排行榜。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码,通过因果推断衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。目前排名第一的是 OpenAI 的 GPT-5.5(High),其次是 Anthropic 的 Claude-Opus-4.7(Thinking)和智谱的 GLM-5.1。

AI 翻译 · 中文

Arena 平台推出 Agent Mode 和 Agent Arena 排行榜,用于评估 AI 智能体在真实任务中的表现。用户可以在 Agent Mode 中让模型执行深度研究、复杂 bash 操作、编写代码、创建幻灯片等任务,每次会话都会贡献到排行榜。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码,通过因果推断衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。目前排名第一的是 OpenAI 的 GPT-5.5(High),其次是 Anthropic 的 Claude-Opus-4.7(Thinking)和智谱的 GLM-5.1。

lmarena.aiAgentic AI is now evaluated in the Arena with Agent Mode and measured with Agent Arena. Founding Engineer Matt and Product Lead Ted show you Agent Mode in action: deep research, complex bash operations, whatever you thro