想知道LLM为什么在导航任务中迷路吗?这个基准把问题拆成三个层级,告诉你59%的锅在交叉口选择,39%在局部感知,方向判断几乎不犯错。对做空间推理的开发者非常有用。
新基准Lost in Aggregation将迷宫导航分解为Fine(局部通行)、Meso(交叉口拓扑)和Macro(全局方向)三个认知层级。在1050个拓扑标注迷宫(3x3至30x30共7种尺寸、3个难度级别)上评估GPT-4o、DeepSeek-V3和Llama-3.3-70B。结果发现:端到端导航在10x10以上几乎完全失败,但单独测试各层级时模型在30-75%水平。首错分析定位59%失败在Meso层级、39%在Fine层级,全局方向仅1%。层次化规划(仅在交叉口查询LLM、配合显式单元格提示)将GPT-4o在中等尺寸上的成功率提升最多92个百分点,但30x30时又遇到扩展瓶颈。基准代码和迷宫已开源。
新基准Lost in Aggregation将迷宫导航分解为Fine(局部通行)、Meso(交叉口拓扑)和Macro(全局方向)三个认知层级。在1050个拓扑标注迷宫(3x3至30x30共7种尺寸、3个难度级别)上评估GPT-4o、DeepSeek-V3和Llama-3.3-70B。结果发现:端到端导航在10x10以上几乎完全失败,但单独测试各层级时模型在30-75%水平。首错分析定位59%失败在Meso层级、39%在Fine层级,全局方向仅1%。层次化规划(仅在交叉口查询LLM、配合显式单元格提示)将GPT-4o在中等尺寸上的成功率提升最多92个百分点,但30x30时又遇到扩展瓶颈。基准代码和迷宫已开源。
Large language models (LLMs) are increasingly deployed as planners and assistants in tasks with inherent spatial structure, such as navigation and route planning, yet they remain brittle in sequential spatial reasoning. …