精选理由
GLM-5.2 (Max) 在工具幻觉和任务成功率上表现突出,综合排名上升4.4%,值得看看它在这些指标上的优势。
GLM-5.2 (Max) 在 Arena 榜单上整体排名第10,较之前上升4.4%。工具幻觉指标并列第1,提升1.9%。确认任务成功排第3,提升9.4%。赞比投诉排第3,提升14.9%。Bash 恢复排第16,提升1.7%;可操控性排第20,下降6.0%。
AI 翻译 · 中文
GLM-5.2 (Max) 在 Arena 榜单上整体排名第10,较之前上升4.4%。工具幻觉指标并列第1,提升1.9%。确认任务成功排第3,提升9.4%。赞比投诉排第3,提升14.9%。Bash 恢复排第16,提升1.7%;可操控性排第20,下降6.0%。
GLM-5.2 (Max) ranks #10 overall (+4.4%) - tied for #1 Tool Hallucination (+1.9%) - #3 Confirmed Task Success (+9.4%) - #3 Praise vs. Complaint (+14.9%) - #16 Bash Recovery (+1.7%) - #20 Steerability (-6.0%) 💬 2 🔄 1 ❤️ …