Claude Opus 4.8 在 Agent Arena 与 GPT 5.5 并列第一

精选理由

Agent Arena 用真实任务和因果推断评估智能体，比传统基准更贴近实际使用场景。做智能体开发或选型的团队，值得关注这个排行榜来对比模型的实际表现。

AI 摘要

Anthropic 的 Claude Opus 4.8 在 Agent Arena 排行榜上首次亮相，在 Thinking 模式下与 GPT 5.5 (High) 并列第一，但在 Non-Thinking 模式下仅排第八。相比前代 Opus 4.7，Opus 4.8 在开启思考时任务完成率更高，但可操控性略差，从 bash 错误中恢复更慢，且工具幻觉率上升。Agent Arena 基于 30 万+任务、200 万+工具调用和 4000 万行代码，通过因果追踪方法评估模型在真实世界智能体任务中的表现。该排行榜衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。

AI 翻译 · 中文

lmarena.aiClaude Opus 4.8 debuts on Agent Arena tied #1 with GPT 5.5 (High) for Thinking & ranked #8 for Non-Thinking. The Opus 4.8 models show a small improvement over their predecessor 4.7 specifically when thinking is turne…

AI Will06-08 09:49原文
rohanpaul_ai06-09 16:50原文
Gary Marcus06-08 05:26原文
shao__meng06-09 01:01原文
Mike Krieger06-09 17:03原文
Alex Albert06-09 17:09原文
宝玉06-09 17:22原文
歸藏(guizang.ai)06-09 17:29原文
Decoder06-09 18:25原文
Guillermo Rauch06-09 18:47原文

查看原推