Agent Arena 发布:大规模真实世界智能体评测

Introducing Agent Arena: real-world agentic evals at scale. How do you evaluate agents doing actual...

精选理由

智能体评测终于从玩具任务走向真实场景——做 AI 应用或智能体开发的团队,可以直接用 Arena 的评测结果来选模型,比跑基准测试更有参考价值。

AI 摘要

Agent Arena 是一个全新的智能体评测平台,通过数百万次真实用户会话,衡量模型在完成实际任务(如编写代码、创建幻灯片、网页研究、构建应用、分析文档)时的表现。评测基于五个信号:任务成功率、可操控性、错误恢复、用户表扬/抱怨比、工具幻觉。排行榜基于 30 万+任务、200 万+工具调用和 4000 万行代码构建,当前排名第一为 OpenAI GPT-5.5,其次为 Anthropic Claude Opus 4.7、智谱 GLM-5.1、Google Gemini 3.1 Pro 和 Kimi K2.6。该平台旨在解决智能体在真实场景中难以评估的问题,为开发者提供更贴近实际使用的性能参考。

AI 翻译 · 中文

Agent Arena 是一个全新的智能体评测平台,通过数百万次真实用户会话,衡量模型在完成实际任务(如编写代码、创建幻灯片、网页研究、构建应用、分析文档)时的表现。评测基于五个信号:任务成功率、可操控性、错误恢复、用户表扬/抱怨比、工具幻觉。排行榜基于 30 万+任务、200 万+工具调用和 4000 万行代码构建,当前排名第一为 OpenAI GPT-5.5,其次为 Anthropic Claude Opus 4.7、智谱 GLM-5.1、Google Gemini 3.1 Pro 和 Kimi K2.6。该平台旨在解决智能体在真实场景中难以评估的问题,为开发者提供更贴近实际使用的性能参考。

lmarena.aiIntroducing Agent Arena: real-world agentic evals at scale. How do you evaluate agents doing actual work? We measure millions of live sessions where real users accomplish real tasks. On Arena, models now get web search,