12:56arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman72°SPIRAL提出一种新训练框架,让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件,在推理任务中扩展效果优于GRPO,最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。论文SPIRALGRPO推理模型强化学习链式思维推荐理由:这篇论文的SPIRAL方法教模型自己学会并行思考再汇总,比单纯加大顺序推理高效11倍,效果还更好,值得做推理扩展的朋友看看。原文
10:32arXiv: DeepSeek@Ziyan Liu, Xueda Shen, Yuzhe Gu, Songyang Gao, Kuikun Liu, Guangran Cheng, Chengqi Lyu, Dahua Lin, Wenwei Zhang, Kai Chen72°大型推理模型(LRM)在链式思维(CoT)上通过可验证奖励强化学习(RLVR)取得了显著进展,但长CoT中固有的试错和冗余探索被强化,导致过度思考问题。现有方法主要偏向较短轨迹,但学习信号仍基于结果,无法减少长CoT中的冗余记忆。为此,研究者提出ThoughtFold框架,通过细粒度偏好学习来缓解冗余探索,实现高效推理。它采用内省策略识别正确轨迹中的冗余,生成候选子轨迹谱,并引入掩码偏好优化目标,显式惩罚冗余探索,鼓励模型直接连接关键推理段,从而折叠推理链。实验表明,ThoughtFold将DeepSeek-R1-Distill-Qwen-7B的token使用量减少约56%,同时保持最先进的准确性。论文推理模型链式思维偏好学习效率优化DeepSeek-R1推荐理由:ThoughtFold解决了LRM过度思考的痛点,做推理模型优化的团队可以直接参考其内省偏好学习方法,能大幅降低计算成本而不牺牲精度。原文
11:13arXiv cs.LG@Moritz Brösamle, Stephan Eckstein精选这篇论文研究了标准Transformer解码器在低精度(如软注意力、激活值和注意力权重取整)下的表达能力,发现其仍能模拟图灵机。作者通过构建硬注意力Transformer作为中间步骤,证明了软注意力Transformer在链式思维推理中具有强大的计算能力。研究还分析了摘要式链式思维范式,表明其能更高效地模拟图灵机,模型大小仅与空间边界对数相关而非时间边界。在数独推理任务上的实验验证了理论预测,与现有高精度结果相比更符合实际可学习性。代码已开源。论文Transformer链式思维低精度表达能力图灵机模拟推荐理由:这篇论文解决了低精度Transformer在链式思维推理中表达能力的关键理论问题,对研究Transformer计算极限和推理效率的学者很有价值,建议关注其理论突破和实验验证。原文
19:11arXiv: DeepSeek@Aojie Yuan, Zhiyuan Julian Su, Haiyue Zhang, Yi Nian, Yue Zhao75°研究揭示了链式思维推理中的一个反直觉现象:语言模型能在内部(隐藏状态)精确检测自身推理错误(AUROC达0.95),但外在表达的信心与正确推理几乎无异(4.55/5 vs 4.87/5)。这一错误意识从推理第一步就存在(AUROC 0.79),并在Qwen、Llama、Phi等模型家族及DeepSeek-R1等推理模型上得到验证。然而,所有基于该信号的干预尝试(激活导向、最佳N选1、自我修正、激活修补)均失败,说明错误表征是计算质量的诊断指标,而非可修改的因果杠杆。这划定了解释性边界:推理中的错误表征与可编辑的事实知识本质上不同。论文推理模型可解释性链式思维错误检测AI安全推荐理由:该研究揭示了当前可解释性方法的关键局限——高精度的内部错误检测并不能转化为有效修正,挑战了对CoT推理过程的因果干预假设。对AI安全与实践者有重要警示:依赖隐藏状态进行推理纠错可能行不通。原文