Claude Fable 5 综合排名第一,任务成功率领先18.2%

Claude Fable 5 ranks #1 overall (+11.2%) - #1 Confirmed Task Success (+18.2%) - #1 Praise vs. Compla...

精选理由

Claude Fable 5 在任务执行和用户满意度上表现亮眼,做AI应用开发或模型选型的团队值得关注其实际表现,尤其是对工具幻觉的控制能力。

AI 摘要

在最新评测中,Claude Fable 5 以综合排名第一的成绩脱颖而出,整体得分领先第二名11.2%。其在确认任务成功率上表现尤为突出,领先18.2%,同时获得更多正面评价(+30.6%)。工具幻觉控制也优于其他模型(+2.1%)。不过,在可操控性方面排名第17,下降了6.8%,表明该方面仍在稳定中。

AI 翻译 · 中文

在最新评测中,Claude Fable 5 以综合排名第一的成绩脱颖而出,整体得分领先第二名11.2%。其在确认任务成功率上表现尤为突出,领先18.2%,同时获得更多正面评价(+30.6%)。工具幻觉控制也优于其他模型(+2.1%)。不过,在可操控性方面排名第17,下降了6.8%,表明该方面仍在稳定中。

lmarena.aiClaude Fable 5 ranks #1 overall (+11.2%) - #1 Confirmed Task Success (+18.2%) - #1 Praise vs. Complaint (+30.6%) - #1 Tool Hallucination (+2.1%) - #7 Bash Recovery (+11.9%) - #17 Steerability (-6.8%, still stabilizing) �