精选理由
做智能体开发或自动化任务的团队,Qwen 3.7-Max 在成本与性能上碾压对手,值得在类似场景中直接替换测试。
在编写自训练俄罗斯方块机器人的真实智能体任务中,Qwen 3.7-Max 以 56% 的改进幅度、仅 1.32 美元的训练成本,全面超越 Claude Opus 4.7(+28%,12.15 美元)和 GPT-5.5(+7%,2.85 美元)。测试中每个模型可读取自身代码、运行基准测试并迭代重写 10 轮。Qwen 3.7-Max 在性能提升和成本效率上均占优,成本仅为 Claude 的 1/9、GPT 的 1/2。这表明 Qwen Max 在长智能体循环任务中具有显著优势。
AI 翻译 · 中文
在编写自训练俄罗斯方块机器人的真实智能体任务中,Qwen 3.7-Max 以 56% 的改进幅度、仅 1.32 美元的训练成本,全面超越 Claude Opus 4.7(+28%,12.15 美元)和 GPT-5.5(+7%,2.85 美元)。测试中每个模型可读取自身代码、运行基准测试并迭代重写 10 轮。Qwen 3.7-Max 在性能提升和成本效率上均占优,成本仅为 Claude 的 1/9、GPT 的 1/2。这表明 Qwen Max 在长智能体循环任务中具有显著优势。
Qwen 3.7-max beats Opus 4.7 and GPT-5.5 We tested three frontier models on a real agentic task: write a Tetris bot that plays the game and trains itself. Each model could read its own code, run benchmarks, and rewrite it…