10:07arXiv cs.AI@Xinyi Zheng, Ling Shi, Tianlong Yu, Yongxin Zhao, Lorenz Goette, Kailong WangQMFOL是一个自动生成一元一阶逻辑推理任务的框架,可精确控制推理深度、宽度、标签类型和干扰项。基于该框架构建的QMFOLBench包含2880个实例、960种配置。在6个大型推理模型(LRMs)和2个LLM上的评估表明,逻辑复杂度增加时性能下降、计算开销上升。模型在True标签任务上表现优于False或Unknown任务,且对语义变化敏感。论文QMFOLLLM推理基准测试推荐理由:这篇论文提出了一个更好的推理测试方法QMFOL,能精细控制逻辑难度,用来测LLM推理能力更准。原文