做智能体开发和评测的团队终于有了一个贴近真实工作场景的排行榜——Agent Arena 用 30 万+ 任务和 200 万+ 工具调用数据,告诉你哪个模型在写代码、做研究、处理文档时真正靠谱,值得点开看看你的模型排第几。
Agent Arena 发布了一个全新的智能体排行榜,不再依赖传统基准测试中的孤立问题,而是评估 AI 模型在真实用户任务中的表现,包括编写代码、构建应用、研究主题、创建文档和分析文件等。该排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码的数据,综合考量任务成功、可引导性、错误恢复、用户表扬/投诉和工具幻觉等信号。结果显示,GPT-5.5 High 以 +10.7% 的净改进率领先,Claude Opus 4.7 Thinking 和 GPT-5.4 High 紧随其后。该排行榜的核心价值在于将智能体视为工作系统,综合评估模型选择、工具使用、恢复行为和用户满意度。
Agent Arena 发布了一个全新的智能体排行榜,不再依赖传统基准测试中的孤立问题,而是评估 AI 模型在真实用户任务中的表现,包括编写代码、构建应用、研究主题、创建文档和分析文件等。该排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码的数据,综合考量任务成功、可引导性、错误恢复、用户表扬/投诉和工具幻觉等信号。结果显示,GPT-5.5 High 以 +10.7% 的净改进率领先,Claude Opus 4.7 Thinking 和 GPT-5.4 High 紧随其后。该排行榜的核心价值在于将智能体视为工作系统,综合评估模型选择、工具使用、恢复行为和用户满意度。
Arena just released a real-world agent leaderboard that ranks AI models by how well they complete actual user jobs, not isolated benchmark questions. The system tracks agents using web search, files, and terminal tools w…
- lmarena.ai06-05 14:19原文