论文精选72°

ReasoningFlow:用话语结构理解LLM推理轨迹

ReasoningFlow: Discourse Structures for Understanding LLM Reasoning Traces

精选理由

ReasoningFlow 解决了LRM推理轨迹难以评估和监控的痛点,做模型可解释性、推理质量分析的团队可以直接用开源工具和数据集来深入分析模型行为。

AI 摘要

大型推理模型(LRM)产生的推理轨迹具有非线性结构(如回溯和自我修正),增加了评估和监控的难度。ReasoningFlow 框架将这些轨迹转化为细粒度的有向无环图(DAG),通过人工标注31条轨迹(2100步)验证了标注方案,并自动标注了1260条轨迹(247,700步),涵盖数学、科学和论证三个任务及五种模型。分析发现:不同LRM的推理结构相似;错误步骤大多不用于推导最终答案;机制性因果依赖与语言层面的话语结构不一致。该框架提升了推理过程的可监控性,数据集和代码已开源。

AI 翻译 · 中文

大型推理模型(LRM)产生的推理轨迹具有非线性结构(如回溯和自我修正),增加了评估和监控的难度。ReasoningFlow 框架将这些轨迹转化为细粒度的有向无环图(DAG),通过人工标注31条轨迹(2100步)验证了标注方案,并自动标注了1260条轨迹(247,700步),涵盖数学、科学和论证三个任务及五种模型。分析发现:不同LRM的推理结构相似;错误步骤大多不用于推导最终答案;机制性因果依赖与语言层面的话语结构不一致。该框架提升了推理过程的可监控性,数据集和代码已开源。

arXiv: DeepSeekLarge reasoning models (LRMs) produce reasoning traces with non-linear structures, such as backtracking and self-correction, that complicate the evaluation and monitoring of the reasoning process. We introduce ReasoningF