精选理由
想看看人机协作到底有没有用?Agent Arena拿数据说话,GLM-5.2开源最强,Claude Fable 5刚登顶就被叫停,这瓜值得吃。
Agent Arena推出了因果追踪方法论,通过分析人类与AI代理协作的追踪数据来量化协作的真实价值,并能观测到广泛的模型行为。基于该方法的新排行榜显示,GLM-5.2 (Max)进入前十,成为最强开源模型,确认成功率比基线高+9.4%,表扬-抱怨比高+14.9%。Claude Fable 5在几乎所有指标上曾排名第一,但因美国政府指令暂停访问。排行榜基于数百万个真实世界长期代理任务,使用因果追踪评估模型相对于平均模型的表现。
AI 翻译 · 中文
Agent Arena推出了因果追踪方法论,通过分析人类与AI代理协作的追踪数据来量化协作的真实价值,并能观测到广泛的模型行为。基于该方法的新排行榜显示,GLM-5.2 (Max)进入前十,成为最强开源模型,确认成功率比基线高+9.4%,表扬-抱怨比高+14.9%。Claude Fable 5在几乎所有指标上曾排名第一,但因美国政府指令暂停访问。排行榜基于数百万个真实世界长期代理任务,使用因果追踪评估模型相对于平均模型的表现。
Agent Arena's causal tracing methodology lets us quantify the real value of humans working together with AI agents, and observe a huge range of model behaviors from the same traces. We started with 5 signals: confirm…