QMFOL：通过量化一元一阶逻辑测试生成评估大模型推理

精选理由

这篇论文提出了一个更好的推理测试方法QMFOL，能精细控制逻辑难度，用来测LLM推理能力更准。

AI 摘要

QMFOL是一个自动生成一元一阶逻辑推理任务的框架，可精确控制推理深度、宽度、标签类型和干扰项。基于该框架构建的QMFOLBench包含2880个实例、960种配置。在6个大型推理模型（LRMs）和2个LLM上的评估表明，逻辑复杂度增加时性能下降、计算开销上升。模型在True标签任务上表现优于False或Unknown任务，且对语义变化敏感。

AI 翻译 · 中文

arXiv cs.AILarge Language Models (LLMs) have made significant progress in reasoning, particularly in deductive reasoning, which is crucial for high-stakes decision-making. As models improve, evaluation benchmarks should evolve to k…

阅读原文