全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

01:19

01:19

lmarena.ai@lmarena_ai

88°

Agent Arena 是一个全新的智能体评测平台，通过数百万次真实用户会话，衡量模型在完成实际任务（如编写代码、创建幻灯片、网页研究、构建应用、分析文档）时的表现。评测基于五个信号：任务成功率、可操控性、错误恢复、用户表扬/抱怨比、工具幻觉。排行榜基于 30 万+任务、200 万+工具调用和 4000 万行代码构建，当前排名第一为 OpenAI GPT-5.5，其次为 Anthropic Claude Opus 4.7、智谱 GLM-5.1、Google Gemini 3.1 Pro 和 Kimi K2.6。该平台旨在解决智能体在真实场景中难以评估的问题，为开发者提供更贴近实际使用的性能参考。

AI产品智能体评测/基准 GPT-5.5 Claude Opus 4.7 GLM-5.1

推荐理由：智能体评测终于从玩具任务走向真实场景——做 AI 应用或智能体开发的团队，可以直接用 Arena 的评测结果来选模型，比跑基准测试更有参考价值。