01:48lmarena.ai@lmarena_ai88°Arena 平台推出 Agent Mode,允许用户测试 AI 智能体在真实任务中的表现,包括深度研究、生成报告、构建网站、调试代码等。该模式通过集成网页搜索、沙箱环境 bash、图像生成、文件写入和追问等工具,评估前沿模型如 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 和顶级开源模型的智能体能力。这标志着 AI 评测从对话转向复杂任务执行,为开发者提供了直观的模型选择依据。用户可直接在 Arena 中体验并对比不同模型的智能体性能。AI产品智能体评测平台GPT-5.5Claude Opus 4.7Gemini 3.1 Pro2 个信源在谈推荐理由:Arena 的 Agent Mode 解决了 AI 评测脱离实际任务的问题,做智能体应用或选型的开发者可以直接上手对比 GPT-5.5 和 Claude Opus 4.7 的真实表现,值得一试。原文