精选理由
他们用 Browser Use v4 搞了个新基准,测了 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3,人工打分告诉你谁在 QA 任务上更强。
Browser Use 团队使用 v4 版本构建 QA 基准测试,将 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3 四个模型在 LLM Arena 数据集上的任务进行对比。每个模型生成网站后由人工评估打分,测试涵盖多个任务类型。结果揭示了开源权重模型在特定场景下的表现差异。
AI 翻译 · 中文
Browser Use 团队使用 v4 版本构建 QA 基准测试,将 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3 四个模型在 LLM Arena 数据集上的任务进行对比。每个模型生成网站后由人工评估打分,测试涵盖多个任务类型。结果揭示了开源权重模型在特定场景下的表现差异。
GLM 5.2 ⚔️ Opus 4.7 ⚔️ GPT 5.5 ⚔️ Minimax M3 Should you use open-weight models? We're making a QA benchmark. Using Browser Use v4, we benchmarked these models > Send a task from the LLM Arena dataset to each > …