Agent Arena因果追踪法量化人机协作价值，GLM-5.2和Claude Fable 5登榜

精选理由

想看看人机协作到底有没有用？Agent Arena拿数据说话，GLM-5.2开源最强，Claude Fable 5刚登顶就被叫停，这瓜值得吃。

AI 摘要

Agent Arena推出了因果追踪方法论，通过分析人类与AI代理协作的追踪数据来量化协作的真实价值，并能观测到广泛的模型行为。基于该方法的新排行榜显示，GLM-5.2 (Max)进入前十，成为最强开源模型，确认成功率比基线高+9.4%，表扬-抱怨比高+14.9%。Claude Fable 5在几乎所有指标上曾排名第一，但因美国政府指令暂停访问。排行榜基于数百万个真实世界长期代理任务，使用因果追踪评估模型相对于平均模型的表现。

AI 翻译 · 中文

lmarena.aiAgent Arena's causal tracing methodology lets us quantify the real value of humans working together with AI agents, and observe a huge range of model behaviors from the same traces. We started with 5 signals: confirm…

宝玉06-16 23:30原文
IT之家06-20 00:04原文
Pandaily06-20 08:43原文
elvis06-16 19:32原文
Decoder06-17 17:30原文
@koltregaskes06-18 18:17原文
Clement Delangue06-19 00:35原文
Epoch AI06-19 06:54原文
Together AI06-19 10:40原文
Aadit Sheth06-17 19:22原文

查看原推