全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月28日

16:41

16:41

阿里通义 Qwen@Alibaba_Qwen

精选72°

阿里巴巴 Qwen3.7-Max 在 IBM 与 Artificial Analysis 联合推出的 ITBench-AA 基准测试中排名第三，该测试评估模型处理真实企业 IT 任务（如 Kubernetes 故障排查）的智能体能力。测试包含 59 个 SRE 任务，模型需通过读取日志、追踪依赖、识别根因实体来诊断故障。所有前沿模型得分均低于 50%，显示该基准极具挑战性。Claude Opus 4.7 以 47% 领先，GPT-5.5 以 46% 紧随其后，Qwen3.7-Max 以 42% 位列第三。

AI模型 Qwen3.7-Max ITBench-AA 企业 IT 任务智能体 SRE

推荐理由：企业 IT 运维团队终于有了靠谱的 AI 评测标准——ITBench-AA 模拟真实 K8s 故障排查场景，做 SRE 或 FinOps 的开发者可以直接参考模型表现来选型。