AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:评估基准×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月4日
20:34
20:34Hugging Face: Blog(博客/媒体)
精选
ServiceNow AI 发布了 EVA-Bench Data 2.0,一个面向企业级 AI 智能体的评估基准数据集。该数据集覆盖 3 个领域(IT、HR、客户服务),包含 121 种工具和 213 个场景,旨在测试 AI 智能体在复杂企业环境中的工具调用和任务执行能力。相比第一版,新版本增加了更多真实世界的交互场景和工具多样性,为开发者提供了更全面的评估标准。这对于希望在企业场景中部署 AI 智能体的团队来说,是一个重要的参考资源。
AI产品智能体评估基准企业AI工具调用ServiceNow

推荐理由:企业 AI 智能体评估终于有了更贴近真实场景的基准——3 领域 121 工具覆盖 IT、HR、客服,做企业级 AI 落地的团队可以直接用这个数据集来测试自己的智能体。
原文
5月18日
22:29
22:29Hugging Face: Blog(博客/媒体)
精选76°
IBM Research 在 Hugging Face 上推出了 Open Agent Leaderboard,这是一个用于评估 AI 智能体性能的公开排行榜。该排行榜通过一系列标准化任务测试智能体的规划、工具使用和推理能力,旨在为开发者提供可复现的基准。目前已有多个主流模型参与评测,包括 GPT-4、Claude 等。这一举措有助于推动智能体领域的透明化和标准化,让开发者能更直观地比较不同智能体的实际表现。
行业智能体排行榜IBMHugging Face评估基准

推荐理由:智能体评估一直缺乏统一标准,IBM 这个排行榜让开发者能直接对比不同模型的规划与工具使用能力,做智能体应用的团队值得关注。
原文
精选全部日报登录