Agent Arena 用真实任务和因果推断评估智能体,比传统基准更贴近实际使用场景。做智能体开发或选型的团队,值得关注这个排行榜来对比模型的实际表现。
Anthropic 的 Claude Opus 4.8 在 Agent Arena 排行榜上首次亮相,在 Thinking 模式下与 GPT 5.5 (High) 并列第一,但在 Non-Thinking 模式下仅排第八。相比前代 Opus 4.7,Opus 4.8 在开启思考时任务完成率更高,但可操控性略差,从 bash 错误中恢复更慢,且工具幻觉率上升。Agent Arena 基于 30 万+任务、200 万+工具调用和 4000 万行代码,通过因果追踪方法评估模型在真实世界智能体任务中的表现。该排行榜衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。
Anthropic 的 Claude Opus 4.8 在 Agent Arena 排行榜上首次亮相,在 Thinking 模式下与 GPT 5.5 (High) 并列第一,但在 Non-Thinking 模式下仅排第八。相比前代 Opus 4.7,Opus 4.8 在开启思考时任务完成率更高,但可操控性略差,从 bash 错误中恢复更慢,且工具幻觉率上升。Agent Arena 基于 30 万+任务、200 万+工具调用和 4000 万行代码,通过因果追踪方法评估模型在真实世界智能体任务中的表现。该排行榜衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。
Claude Opus 4.8 debuts on Agent Arena tied #1 with GPT 5.5 (High) for Thinking & ranked #8 for Non-Thinking. The Opus 4.8 models show a small improvement over their predecessor 4.7 specifically when thinking is turne…