16:41阿里通义 Qwen@Alibaba_Qwen精选72°阿里巴巴 Qwen3.7-Max 在 IBM 与 Artificial Analysis 联合推出的 ITBench-AA 基准测试中排名第三,该测试评估模型处理真实企业 IT 任务(如 Kubernetes 故障排查)的智能体能力。测试包含 59 个 SRE 任务,模型需通过读取日志、追踪依赖、识别根因实体来诊断故障。所有前沿模型得分均低于 50%,显示该基准极具挑战性。Claude Opus 4.7 以 47% 领先,GPT-5.5 以 46% 紧随其后,Qwen3.7-Max 以 42% 位列第三。AI模型Qwen3.7-MaxITBench-AA企业 IT 任务智能体SRE推荐理由:企业 IT 运维团队终于有了靠谱的 AI 评测标准——ITBench-AA 模拟真实 K8s 故障排查场景,做 SRE 或 FinOps 的开发者可以直接参考模型表现来选型。原文