Qwen3.7-Max 发布，国产模型盲测登顶，逼近 GPT/Claude

精选理由

Qwen3.7-Max 在多项基准上追平国际顶尖模型，做 Agent 和编程自动化的开发者可以直接拿来替代闭源方案，尤其是 preserve_thinking 参数对长周期任务很有用，值得一试。

AI 摘要

阿里通义千问发布 Qwen3.7-Max，在第三方 Arena 全球大模型盲测总榜中超越 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，位列国产第一，与 GPT、Claude、Gemini 最强模型接近。在编程智能体方面，SWE-Pro、SWE-Multilingual 等测评领先，Terminal Bench 2.0 得分 69.7。通用智能体能力显著提升，在 MCP-Atlas、MCP-Mark 等现实测试中创国产新高。新增 preserve_thinking 参数，保留前序思维内容以增强 Agent 决策一致性，减少重复推理 Token 消耗，默认关闭。实测在 Claude Code 下跨框架泛化能力不错，但需要更精准的提示词和多轮迭代。

AI 翻译 · 中文

岚叔qwen3.7-max 发布了，在三方机构Arena全球大模型盲测总榜中，Qwen3.7-Max超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，与GPT、Claude、Gemini最强模型接近，位列国产模型第一。在编程智能体方面，Qwen3.7-Max 在 SWE-Pro、SWE-Multilingual等测评中均取得领先表现，在Terminal Bench 2.0-Terminus得分69.7。在通用智能体方…

arXiv: DeepSeek05-21 07:00原文
@atomic_chat_hq05-23 08:21原文

查看原推