Qwen3.7-Max 在多项基准上追平国际顶尖模型,做 Agent 和编程自动化的开发者可以直接拿来替代闭源方案,尤其是 preserve_thinking 参数对长周期任务很有用,值得一试。
阿里通义千问发布 Qwen3.7-Max,在第三方 Arena 全球大模型盲测总榜中超越 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,位列国产第一,与 GPT、Claude、Gemini 最强模型接近。在编程智能体方面,SWE-Pro、SWE-Multilingual 等测评领先,Terminal Bench 2.0 得分 69.7。通用智能体能力显著提升,在 MCP-Atlas、MCP-Mark 等现实测试中创国产新高。新增 preserve_thinking 参数,保留前序思维内容以增强 Agent 决策一致性,减少重复推理 Token 消耗,默认关闭。实测在 Claude Code 下跨框架泛化能力不错,但需要更精准的提示词和多轮迭代。
阿里通义千问发布 Qwen3.7-Max,在第三方 Arena 全球大模型盲测总榜中超越 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,位列国产第一,与 GPT、Claude、Gemini 最强模型接近。在编程智能体方面,SWE-Pro、SWE-Multilingual 等测评领先,Terminal Bench 2.0 得分 69.7。通用智能体能力显著提升,在 MCP-Atlas、MCP-Mark 等现实测试中创国产新高。新增 preserve_thinking 参数,保留前序思维内容以增强 Agent 决策一致性,减少重复推理 Token 消耗,默认关闭。实测在 Claude Code 下跨框架泛化能力不错,但需要更精准的提示词和多轮迭代。
qwen3.7-max 发布了,在三方机构Arena全球大模型盲测总榜中,Qwen3.7-Max超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,与GPT、Claude、Gemini最强模型接近,位列国产模型第一。 在编程智能体方面,Qwen3.7-Max 在 SWE-Pro、SWE-Multilingual等测评中均取得领先表现,在Terminal Bench 2.0-Terminus得分69.7。在通用智能体方…