论文72°

ThoughtFold:通过内省偏好学习折叠推理链,减少冗余探索

ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning

精选理由

ThoughtFold解决了LRM过度思考的痛点,做推理模型优化的团队可以直接参考其内省偏好学习方法,能大幅降低计算成本而不牺牲精度。

AI 摘要

大型推理模型(LRM)在链式思维(CoT)上通过可验证奖励强化学习(RLVR)取得了显著进展,但长CoT中固有的试错和冗余探索被强化,导致过度思考问题。现有方法主要偏向较短轨迹,但学习信号仍基于结果,无法减少长CoT中的冗余记忆。为此,研究者提出ThoughtFold框架,通过细粒度偏好学习来缓解冗余探索,实现高效推理。它采用内省策略识别正确轨迹中的冗余,生成候选子轨迹谱,并引入掩码偏好优化目标,显式惩罚冗余探索,鼓励模型直接连接关键推理段,从而折叠推理链。实验表明,ThoughtFold将DeepSeek-R1-Distill-Qwen-7B的token使用量减少约56%,同时保持最先进的准确性。

AI 翻译 · 中文

大型推理模型(LRM)在链式思维(CoT)上通过可验证奖励强化学习(RLVR)取得了显著进展,但长CoT中固有的试错和冗余探索被强化,导致过度思考问题。现有方法主要偏向较短轨迹,但学习信号仍基于结果,无法减少长CoT中的冗余记忆。为此,研究者提出ThoughtFold框架,通过细粒度偏好学习来缓解冗余探索,实现高效推理。它采用内省策略识别正确轨迹中的冗余,生成候选子轨迹谱,并引入掩码偏好优化目标,显式惩罚冗余探索,鼓励模型直接连接关键推理段,从而折叠推理链。实验表明,ThoughtFold将DeepSeek-R1-Distill-Qwen-7B的token使用量减少约56%,同时保持最先进的准确性。

arXiv: DeepSeekLarge Reasoning Models (LRMs) have achieved remarkable progress thanks to Reinforcement Learning with Verifiable Rewards (RLVR) on Chain-of-Thoughts (CoTs). However, since long CoTs naturally contain trial and errors and