Qwen 3.7-Max 在智能体任务中击败 Opus 4.7 和 GPT-5.5

👀👀

精选理由

Qwen 3.7-Max 在智能体任务中成本仅为 Claude 的1/9、GPT 的1/2,性能提升却翻倍,做 AI 智能体开发的团队值得关注这个性价比之选。

AI 摘要

atomic.chat 团队测试了三个前沿模型在真实智能体任务中的表现:编写一个能自我训练并玩俄罗斯方块的机器人。每个模型可以读取自己的代码、运行基准测试并在10次迭代中自我重写。最终 Qwen 3.7-Max 以训练成本仅1.32美元、机器人性能提升56%的成绩全面领先,而 Claude Opus 4.7 成本12.15美元提升28%,GPT-5.5 成本2.85美元提升仅7%。Qwen 在成本效益和性能提升上均胜出,尤其在长智能体循环场景中表现出色。

AI 翻译 · 中文

atomic.chat 团队测试了三个前沿模型在真实智能体任务中的表现:编写一个能自我训练并玩俄罗斯方块的机器人。每个模型可以读取自己的代码、运行基准测试并在10次迭代中自我重写。最终 Qwen 3.7-Max 以训练成本仅1.32美元、机器人性能提升56%的成绩全面领先,而 Claude Opus 4.7 成本12.15美元提升28%,GPT-5.5 成本2.85美元提升仅7%。Qwen 在成本效益和性能提升上均胜出,尤其在长智能体循环场景中表现出色。

阿里通义 Qwen👀👀 atomic.chat @atomic_chat_hq Qwen 3.7-max beats Opus 4.7 and GPT-5.5 We tested three frontier models on a real agentic task: write a Tetris bot that plays the game and trains itself. Each model could read its own cod