精选理由
这篇论文戳穿了当前长链推理模型的表面繁荣——做AI推理研究的团队会发现,模型可能只是在模仿推理的“样子”而非真正进步,值得细读其提出的改进方向。
一项新研究对DeepSeek-R1-0120模型与人类在AIME 2025数学竞赛30道题上的推理过程进行了全面比较,标注了10247个推理步骤。研究发现,DeepSeek-R1的推理存在“拓扑模仿”现象:它频繁进行浅层验证和局部循环,缺乏人类推理中紧凑的分析与演绎交替结构。然而,成功的推理轨迹显示出稳定的分支和回溯使用,而失败的轨迹则过度或不足使用探索性动作。反思只有在演绎推理中才有效,陷入分析循环的反思往往忽略全局逻辑错误。研究建议改进评估和训练,包括测量跨轨迹稳定性、惩罚“空转”轨迹、鼓励深层逻辑修正。
AI 翻译 · 中文
一项新研究对DeepSeek-R1-0120模型与人类在AIME 2025数学竞赛30道题上的推理过程进行了全面比较,标注了10247个推理步骤。研究发现,DeepSeek-R1的推理存在“拓扑模仿”现象:它频繁进行浅层验证和局部循环,缺乏人类推理中紧凑的分析与演绎交替结构。然而,成功的推理轨迹显示出稳定的分支和回溯使用,而失败的轨迹则过度或不足使用探索性动作。反思只有在演绎推理中才有效,陷入分析循环的反思往往忽略全局逻辑错误。研究建议改进评估和训练,包括测量跨轨迹稳定性、惩罚“空转”轨迹、鼓励深层逻辑修正。
The emergence of "Aha moments" in large language models, particularly DeepSeek-R1-0120, has raised the question of whether these systems genuinely reason or merely imitate the appearance of reasoning. We conduct a compre…