GeoNatureAgent Benchmark:首个环境地理空间分析智能体基准测试

GeoNatureAgent Benchmark: Benchmarking LLM Agents for Environmental Geospatial Analysis Across Frontier and Open-Weight Foundation Models

精选理由

做环境数据分析或地理空间智能体的开发者,这个基准能帮你快速验证模型在真实 API 调用场景下的能力,DeepSeek V3.2 的性价比值得一试。

AI 摘要

GeoNatureAgent Benchmark 是首个针对环境分析智能体的基准测试,要求智能体通过结构化工具调用真实地理空间 API 完成任务。该基准包含 93 个任务,覆盖 18 个类别,如市政分析、多轮对话、空间推理、错误处理等,基于西班牙和葡萄牙的三个环境指标和 16 个工具进行评估。测试了 7 个 LLM(Claude Sonnet 4、DeepSeek V3.2 等),Claude Sonnet 4 以 60.8% 准确率领先,DeepSeek V3.2 以 56.3% 紧随其后,且成本仅为 Claude 的 1/11。比较类任务(如接近值比较)所有模型均为 0%,暴露了系统推理局限。该基准比通用 GIS 基准更具区分度,准确率低 25-35 个百分点。基准、测试工具和 API 均已开源。

AI 翻译 · 中文

GeoNatureAgent Benchmark 是首个针对环境分析智能体的基准测试,要求智能体通过结构化工具调用真实地理空间 API 完成任务。该基准包含 93 个任务,覆盖 18 个类别,如市政分析、多轮对话、空间推理、错误处理等,基于西班牙和葡萄牙的三个环境指标和 16 个工具进行评估。测试了 7 个 LLM(Claude Sonnet 4、DeepSeek V3.2 等),Claude Sonnet 4 以 60.8% 准确率领先,DeepSeek V3.2 以 56.3% 紧随其后,且成本仅为 Claude 的 1/11。比较类任务(如接近值比较)所有模型均为 0%,暴露了系统推理局限。该基准比通用 GIS 基准更具区分度,准确率低 25-35 个百分点。基准、测试工具和 API 均已开源。

arXiv: DeepSeekEnvironmental scientists spend disproportionate effort on data wrangling rather than analysis, and AI agents that automate geospatial workflows remain unvalidated: no benchmark evaluates agents operating through structur