全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

01:48

01:48

lmarena.ai@lmarena_ai

88°

Arena 平台推出 Agent Mode，允许用户测试 AI 智能体在真实任务中的表现，包括深度研究、生成报告、构建网站、调试代码等。该模式通过集成网页搜索、沙箱环境 bash、图像生成、文件写入和追问等工具，评估前沿模型如 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 和顶级开源模型的智能体能力。这标志着 AI 评测从对话转向复杂任务执行，为开发者提供了直观的模型选择依据。用户可直接在 Arena 中体验并对比不同模型的智能体性能。

AI产品智能体评测平台 GPT-5.5 Claude Opus 4.7 Gemini 3.1 Pro

推荐理由：Arena 的 Agent Mode 解决了 AI 评测脱离实际任务的问题，做智能体应用或选型的开发者可以直接上手对比 GPT-5.5 和 Claude Opus 4.7 的真实表现，值得一试。