全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月7日

01:13

01:13

lmarena.ai@lmarena_ai

Arena.ai 推出了 Agent Mode，允许用户使用前沿 AI 智能体完成深度研究、生成报告、创建图像、构建网站、调试代码等复杂任务。该模式通过集成网页搜索、沙箱环境中的 bash、图像生成、文件写入和追问等功能，让智能体更自主地处理真实工作。用户的使用数据将用于在 Agent Arena 排行榜上对模型进行排名。目前支持的模型包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 以及顶级开源模型。这一更新为 AI 智能体的能力评估提供了更贴近实际应用的基准。

AI产品 Agent Arena Agent Mode 智能体模型评测前沿模型

推荐理由：Agent Mode 让 AI 智能体从聊天走向真实工作，做自动化、开发或研究的团队可以直接上手测试前沿模型的实际表现，还能影响排行榜排名，值得一试。

6月6日

03:21

03:21

lmarena.ai@lmarena_ai

Arena 平台推出全新的 Agent Mode，并已将 Mistral 3.5 模型纳入其中。该模式允许模型执行深度研究、生成报告、创建网站、调试代码等复杂任务，通过调用网页搜索、沙箱环境 bash、图像生成、文件写入等工具完成。用户可亲自测试包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 及顶级开源模型在内的前沿模型。用户的测试会话将帮助塑造 Agent Arena 排行榜，为评估智能体能力提供真实场景数据。

AI产品 Mistral 3.5 Arena Agent Mode 智能体评测模型对比

推荐理由：Arena 的 Agent Mode 让开发者能直接对比主流模型在真实复杂任务上的表现，做智能体应用选型的团队值得亲自上手测试，结果会直接影响排行榜。

6月5日

06:16

06:16

lmarena.ai@lmarena_ai

88°

Arena 平台今日正式推出 Agent Mode，允许用户测试前沿模型在真实任务中的表现，包括深度研究、生成报告、创建网站、调试代码等。该模式通过工具调用（如网页搜索、沙箱 bash、图像生成、文件写入）完成复杂任务。首批支持的模型包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 及顶级开源模型。同时，Battle Mode 投票数已突破 5000 万。

AI产品 Arena Agent Mode 模型评测 GPT-5.5 Claude Opus 4.7

推荐理由：Arena 的 Agent Mode 让开发者可以直接对比前沿模型在真实任务中的表现，做 AI 评测或选型的团队值得一试。

01:50

01:50

lmarena.ai@lmarena_ai

Arena 团队发布了关于 Agent Mode 的详细博客，包含 FAQ 和早期使用经验。该模式旨在提升 AI 智能体的自主决策与任务执行能力。博客中分享了在实际应用中遇到的挑战与解决方案。对于关注 AI 智能体开发的团队和个人，这是一份有价值的参考。

AI产品智能体 Agent Mode FAQ Arena 经验分享

推荐理由：做 AI 智能体开发的团队可以从中获取实际部署经验，FAQ 部分能直接解决常见问题，值得一读。

01:49

01:49

lmarena.ai@lmarena_ai

Arena 平台今日上线 Agent Mode，允许用户评估智能体 AI 的表现。该模式旨在为开发者提供测试和比较不同智能体系统的标准化环境。用户可通过 arena.ai/agent 直接体验。这标志着 AI 评估从单一模型转向更复杂的智能体交互场景。

AI产品智能体评估平台 Arena Agent Mode AI 测试

推荐理由：做智能体开发或选型的团队终于有了可量化的评估工具，建议直接上手试试 Agent Mode。