精选理由
想对比主流模型在真实任务中的智能体能力?Agent Arena 用 30 万+任务和 200 万+工具调用给出了量化排名,做 AI 应用选型的团队可以直接参考排行榜做决策。
Anthropic 的 Claude Fable 5 模型已上线 Agent 模式,用户可在 Agent Arena 中测试其智能体能力。Agent Arena 是一个基于真实用户任务的智能体评估平台,通过数百万次实时会话衡量模型在代码编写、网页搜索、文件操作等复杂工作流中的表现。排行榜基于 30 万+任务、200 万+工具调用和 4000 万行代码构建,当前排名第一的是 OpenAI 的 GPT-5.5 (High),Claude-Opus-4.7 (Thinking) 位列第二。评估信号包括任务成功率、可操控性、错误恢复、用户反馈和工具幻觉等。
AI 翻译 · 中文
Anthropic 的 Claude Fable 5 模型已上线 Agent 模式,用户可在 Agent Arena 中测试其智能体能力。Agent Arena 是一个基于真实用户任务的智能体评估平台,通过数百万次实时会话衡量模型在代码编写、网页搜索、文件操作等复杂工作流中的表现。排行榜基于 30 万+任务、200 万+工具调用和 4000 万行代码构建,当前排名第一的是 OpenAI 的 GPT-5.5 (High),Claude-Opus-4.7 (Thinking) 位列第二。评估信号包括任务成功率、可操控性、错误恢复、用户反馈和工具幻觉等。
Claude Fable 5 by @AnthropicAI is in Agent Mode! Come test out its agentic capabilities for accomplishing your real-world tasks. Every session contributes to the Agent Arena leaderboard. We'll see scores soon. Arena.…