AI模型精选

GLM-5.2 (Max) 综合排名第10,工具幻觉并列第1

GLM-5.2 (Max) ranks #10 overall (+4.4%) - tied for #1 Tool Hallucination (+1.9%) - #3 Confirmed Tas...

精选理由

GLM-5.2 (Max) 在工具幻觉和任务成功率上表现突出,综合排名上升4.4%,值得看看它在这些指标上的优势。

AI 摘要

GLM-5.2 (Max) 在 Arena 榜单上整体排名第10,较之前上升4.4%。工具幻觉指标并列第1,提升1.9%。确认任务成功排第3,提升9.4%。赞比投诉排第3,提升14.9%。Bash 恢复排第16,提升1.7%;可操控性排第20,下降6.0%。

AI 翻译 · 中文

GLM-5.2 (Max) 在 Arena 榜单上整体排名第10,较之前上升4.4%。工具幻觉指标并列第1,提升1.9%。确认任务成功排第3,提升9.4%。赞比投诉排第3,提升14.9%。Bash 恢复排第16,提升1.7%;可操控性排第20,下降6.0%。

lmarena.aiGLM-5.2 (Max) ranks #10 overall (+4.4%) - tied for #1 Tool Hallucination (+1.9%) - #3 Confirmed Task Success (+9.4%) - #3 Praise vs. Complaint (+14.9%) - #16 Bash Recovery (+1.7%) - #20 Steerability (-6.0%) 💬 2 🔄 1 ❤️