QMFOL:通过量化一元一阶逻辑测试生成评估大模型推理

QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation

精选理由

这篇论文提出了一个更好的推理测试方法QMFOL,能精细控制逻辑难度,用来测LLM推理能力更准。

AI 摘要

QMFOL是一个自动生成一元一阶逻辑推理任务的框架,可精确控制推理深度、宽度、标签类型和干扰项。基于该框架构建的QMFOLBench包含2880个实例、960种配置。在6个大型推理模型(LRMs)和2个LLM上的评估表明,逻辑复杂度增加时性能下降、计算开销上升。模型在True标签任务上表现优于False或Unknown任务,且对语义变化敏感。

AI 翻译 · 中文

QMFOL是一个自动生成一元一阶逻辑推理任务的框架,可精确控制推理深度、宽度、标签类型和干扰项。基于该框架构建的QMFOLBench包含2880个实例、960种配置。在6个大型推理模型(LRMs)和2个LLM上的评估表明,逻辑复杂度增加时性能下降、计算开销上升。模型在True标签任务上表现优于False或Unknown任务,且对语义变化敏感。

arXiv cs.AILarge Language Models (LLMs) have made significant progress in reasoning, particularly in deductive reasoning, which is crucial for high-stakes decision-making. As models improve, evaluation benchmarks should evolve to k