GeoNatureAgent Benchmark：首个环境地理空间分析智能体基准测试

精选理由

做环境数据分析或地理空间智能体的开发者，这个基准能帮你快速验证模型在真实 API 调用场景下的能力，DeepSeek V3.2 的性价比值得一试。

AI 摘要

GeoNatureAgent Benchmark 是首个针对环境分析智能体的基准测试，要求智能体通过结构化工具调用真实地理空间 API 完成任务。该基准包含 93 个任务，覆盖 18 个类别，如市政分析、多轮对话、空间推理、错误处理等，基于西班牙和葡萄牙的三个环境指标和 16 个工具进行评估。测试了 7 个 LLM（Claude Sonnet 4、DeepSeek V3.2 等），Claude Sonnet 4 以 60.8% 准确率领先，DeepSeek V3.2 以 56.3% 紧随其后，且成本仅为 Claude 的 1/11。比较类任务（如接近值比较）所有模型均为 0%，暴露了系统推理局限。该基准比通用 GIS 基准更具区分度，准确率低 25-35 个百分点。基准、测试工具和 API 均已开源。

AI 翻译 · 中文

arXiv: DeepSeekEnvironmental scientists spend disproportionate effort on data wrangling rather than analysis, and AI agents that automate geospatial workflows remain unvalidated: no benchmark evaluates agents operating through structur…

阅读原文