Agent Mode 上线：AI 智能体能力在 Arena 中可评测

精选理由

Arena 的 Agent Mode 解决了 AI 评测脱离实际任务的问题，做智能体应用或选型的开发者可以直接上手对比 GPT-5.5 和 Claude Opus 4.7 的真实表现，值得一试。

AI 摘要

Arena 平台推出 Agent Mode，允许用户测试 AI 智能体在真实任务中的表现，包括深度研究、生成报告、构建网站、调试代码等。该模式通过集成网页搜索、沙箱环境 bash、图像生成、文件写入和追问等工具，评估前沿模型如 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 和顶级开源模型的智能体能力。这标志着 AI 评测从对话转向复杂任务执行，为开发者提供了直观的模型选择依据。用户可直接在 Arena 中体验并对比不同模型的智能体性能。

AI 翻译 · 中文

lmarena.aiIntroducing Agent Mode: Agentic AI is now measured in the Arena. Agent Mode can do deep research, create reports, generate images, build websites, debug code, and more. It completes more complex tasks by using tools like…

rohanpaul_ai06-05 22:41原文
Fireworks AI06-03 16:41原文

查看原推