GPT-5.5 (xHigh) 在 Agent Arena 排名第二，仅次于 Claude Fable 5

精选理由

做智能体开发和 AI 评测的团队值得关注——GPT-5.5 在用户满意度和故障恢复上反超 Claude，说明 OpenAI 在实用场景上有了实质提升，建议直接去 Agent Arena 跑跑自己的任务。

AI 摘要

GPT-5.5 (xHigh) 在 Agent Arena 中排名第二，净提升 10.6%，成为 OpenAI 排名最高的模型，仅次于 Claude Fable 5 (High)。在 Praise vs. Complaint 和 Bash Recovery 两项指标上，GPT-5.5 甚至超过了 Claude Fable 5。Agent Arena 通过数百万真实世界、长周期智能体任务评估模型，涵盖代码编写、幻灯片制作、网页研究、应用构建和文档分析等复杂工作流。该平台还推出了 Agent Mode，允许用户直接测试 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 等前沿模型。

AI 翻译 · 中文

lmarena.aiGPT-5.5 (xHigh) ranks #2 on Agent Arena (+10.6% net improvement), making it the highest-ranked OpenAI model closely behind Claude Fable 5 (High). Per signal breakdown, GPT-5.5 (xHigh) ranks #1 in Praise vs. Complaint (+2…

Artificial Analysis06-12 07:09原文
Decoder06-13 10:16原文
AI Will06-11 07:28原文
Scott Wu06-09 19:40原文
Poe06-09 19:53原文
berryxia06-09 22:47原文
Simon Willison’s Weblog06-09 23:59原文
shao__meng06-10 01:06原文
Jerry Liu06-10 01:26原文
IT之家06-11 03:15原文

查看原推