Claude Fable 5 进入 Agent 模式，Agent Arena 排行榜揭晓

精选理由

想对比主流模型在真实任务中的智能体能力？Agent Arena 用 30 万+任务和 200 万+工具调用给出了量化排名，做 AI 应用选型的团队可以直接参考排行榜做决策。

AI 摘要

Anthropic 的 Claude Fable 5 模型已上线 Agent 模式，用户可在 Agent Arena 中测试其智能体能力。Agent Arena 是一个基于真实用户任务的智能体评估平台，通过数百万次实时会话衡量模型在代码编写、网页搜索、文件操作等复杂工作流中的表现。排行榜基于 30 万+任务、200 万+工具调用和 4000 万行代码构建，当前排名第一的是 OpenAI 的 GPT-5.5 (High)，Claude-Opus-4.7 (Thinking) 位列第二。评估信号包括任务成功率、可操控性、错误恢复、用户反馈和工具幻觉等。

AI 翻译 · 中文

lmarena.aiClaude Fable 5 by @AnthropicAI is in Agent Mode! Come test out its agentic capabilities for accomplishing your real-world tasks. Every session contributes to the Agent Arena leaderboard. We'll see scores soon. Arena.…

AI Will06-11 07:28原文
rohanpaul_ai06-09 18:35原文
Genspark06-10 01:38原文
宝玉06-10 05:33原文
Aravind Srinivas06-10 18:24原文
IT之家06-11 03:15原文
Alex Albert06-09 17:09原文
Lovable06-09 17:14原文
Notion06-09 17:21原文
Cognition06-09 17:25原文

查看原推