全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

22:57

22:57

lmarena.ai@lmarena_ai

GLM-5.2是Zai_org发布的最新开源模型，已加入Agent Arena评测平台。该平台通过30万+任务、200万+工具调用和4000万行代码评估模型在搜索、文件系统和终端工具上的智能体性能。当前排行榜前五名包括GPT-5.5（第一）、Claude-Opus-4.7（第二）、GLM-5.1（第三）、Gemini-3.1-Pro（第四）和Kimi-K2.6（第五）。GLM-5.2将与其他模型竞争，展示其智能体能力。

AI模型 GLM-5.2 Zai_org Agent Arena GPT-5.5 Claude-Opus-4.7 智能体

推荐理由：看看GLM-5.2在Agent Arena能排第几

09:46

09:46

lmarena.ai@lmarena_ai

MiniMax M3 是一款开放权重的模型，现已加入 Agent Arena 平台。Agent Arena 通过真实用户会话评估模型在网页搜索、文件系统和终端工具上的表现，涵盖编写代码、创建幻灯片、研究网页、构建应用和分析文档等任务。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码构建，当前排名第一的是 OpenAI 的 GPT-5.5 (High)，第二是 Anthropic 的 Claude-Opus-4.7 (Thinking)。MiniMax M3 的评分即将公布。

AI模型 MiniMax M3 Agent Arena GPT-5.5 Claude-Opus-4.7 智能体

推荐理由：看看 MiniMax M3 在 Agent 任务中能排第几

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

23:31

23:31

lmarena.ai@lmarena_ai

76°

Arena 平台推出 Agent Mode 和 Agent Arena 排行榜，用于评估 AI 智能体在真实任务中的表现。用户可以在 Agent Mode 中让模型执行深度研究、复杂 bash 操作、编写代码、创建幻灯片等任务，每次会话都会贡献到排行榜。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码，通过因果推断衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。目前排名第一的是 OpenAI 的 GPT-5.5（High），其次是 Anthropic 的 Claude-Opus-4.7（Thinking）和智谱的 GLM-5.1。

AI产品智能体评估/基准排行榜 GPT-5.5 Claude-Opus-4.7

推荐理由：做 AI 智能体开发或选型的团队终于有了可量化的评估标准——Agent Arena 用真实用户任务和因果推断排出了模型的实际能力，值得参考排行榜来选模型或优化自己的智能体。