Agent Arena上线两周,GLM-5.2与Claude Fable 5登榜

Agent Arena has been live for 2 weeks, with 10 more models now on the new leaderboard. Two highlight...

精选理由

想看看最新智能体模型谁最强?Agent Arena更新了,GLM-5.2开源冲进前十,Claude Fable 5暂时下线,榜单有了新格局。

AI 摘要

Agent Arena上线两周,新增10个模型。GLM-5.2 (Max)进入前十,以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一,但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。

AI 翻译 · 中文

Agent Arena上线两周,新增10个模型。GLM-5.2 (Max)进入前十,以+9.4%确认成功率和+14.9%赞美vs抱怨率成为最强开源模型。Claude Fable 5在多项指标排名第一,但受美国政府指令暂停访问。评测基于超过30万任务、200万次工具调用和4000万行代码。

lmarena.aiAgent Arena has been live for 2 weeks, with 10 more models now on the new leaderboard. Two highlights worth mentioning: - GLM-5.2 (Max) by @Zai_Org enters the top 10. The strongest open-weight result we've measured,