Qwen 3.7-Max 在智能体任务中击败 Opus 4.7 和 GPT-5.5

精选理由

做智能体开发或自动化任务的团队，Qwen 3.7-Max 在成本与性能上碾压对手，值得在类似场景中直接替换测试。

AI 摘要

在编写自训练俄罗斯方块机器人的真实智能体任务中，Qwen 3.7-Max 以 56% 的改进幅度、仅 1.32 美元的训练成本，全面超越 Claude Opus 4.7（+28%，12.15 美元）和 GPT-5.5（+7%，2.85 美元）。测试中每个模型可读取自身代码、运行基准测试并迭代重写 10 轮。Qwen 3.7-Max 在性能提升和成本效率上均占优，成本仅为 Claude 的 1/9、GPT 的 1/2。这表明 Qwen Max 在长智能体循环任务中具有显著优势。

AI 翻译 · 中文

@atomic_chat_hqQwen 3.7-max beats Opus 4.7 and GPT-5.5 We tested three frontier models on a real agentic task: write a Tetris bot that plays the game and trains itself. Each model could read its own code, run benchmarks, and rewrite it…

查看原推