GLM-5.2等开源模型在AA-Briefcase智能体基准上追赶闭源

Open weights are closing the time lag on tough age…

精选理由

开源模型GLM-5.2在AA-Briefcase智能体基准上只差闭源三个月了,做复杂任务时值得试试看。

AI 摘要

Ethan Mollick根据Artificial Analysis的AA-Briefcase分数,绘制了AI模型在复杂多周咨询任务上的表现趋势。AA-Briefcase测试模型处理电子表格和策略规划等可交付成果。GLM-5.2等开源模型目前达到的水平,与闭源模型三个月前的分数一致。高端闭源模型仍保持明显领先,但差距在缩小。

AI 翻译 · 中文

Ethan Mollick根据Artificial Analysis的AA-Briefcase分数,绘制了AI模型在复杂多周咨询任务上的表现趋势。AA-Briefcase测试模型处理电子表格和策略规划等可交付成果。GLM-5.2等开源模型目前达到的水平,与闭源模型三个月前的分数一致。高端闭源模型仍保持明显领先,但差距在缩小。

@koltregaskesOpen weights are closing the time lag on tough agentic benchmarks, 3 months now, GLM 5.2 is shrinking that gap. Ethan Mollick graphed frontier performance on Artificial Analysis AA-Briefcase scores, which test models on