全部 AI 动态 · AI 热点

5月27日

10:51

arXiv cs.LG@Shijin Gong, Erhan Xu, Kai Ye, Francesco Quinzan, Giulia Livieri, Chengchun Shi

精选

BASIS 是一种无需评论家的后训练算法，通过单次采样每个提示的轨迹，并利用整个批次中跨提示的信息共享来改进价值函数估计。实验表明，与单次采样的 REINFORCE++ 基线相比，BASIS 将价值函数估计的均方误差降低了 69%，且单次采样的 MSE 低于 8 次采样的组均值估计器。这种改进带来了更好的策略优化：BASIS 用更少的训练时间达到了接近多采样 GRPO 型基线的性能，并常优于单采样 REINFORCE 型基线。该工作解决了强化学习在计算效率与样本效率之间的权衡问题。

论文强化学习推理模型 LLM训练价值函数估计 BASIS

推荐理由：做LLM推理强化学习的团队终于有了一个兼顾计算和样本效率的方案——BASIS用单次采样就达到多采样的效果，训练成本大幅降低，建议做RLHF或推理优化的开发者点开看看。

原文

5月26日

12:38

arXiv: DeepSeek@Andreas Opedal, Francesco Ignazio Re, Abulhair Saparov, Mrinmaya Sachan, Bernhard Schölkopf, Ryan Cotterell

精选

研究者将自然语言推理建模为搜索问题，利用 A* 搜索算法指导 LLM 生成正确且高效的推理步骤。通过监督微调（基于 A* 执行轨迹）和强化学习（结合 A* 过程奖励模型），Llama-3.2 1B-3B 模型从近乎零准确率提升至超越 DeepSeek-V3.2。研究发现，简单正确性奖励最大化准确率，而 A* 信号能平衡准确率与效率。在更大搜索空间下，基于不完美启发式的训练反而带来更优准确率。这项工作展示了经典搜索算法指导 LLM 推理的潜力。

论文推理模型 A* 搜索后训练强化学习 Llama-3.2

推荐理由：A* 搜索让小模型推理能力大幅跃升，做推理优化或小模型部署的团队值得关注，可以直接参考其训练方法。

原文

12:38

arXiv: DeepSeek@Ali Şenol, Garima Agrawal, Huan Liu

精选

当前LLM评估主要依赖最终答案正确率，忽略了推理过程的质量。本研究提出一个多维度行为框架，从正确性、一致性、鲁棒性、逻辑连贯性、效率和稳定性六个维度衡量推理质量。实验发现，逻辑连贯性与正确性正交（r=-0.172），即正确答案可能来自不连贯推理。该框架还暴露了排名反转：DeepSeek-V3在准确率优先下排名第二，但在法律/合规权重下排名第五。该框架为模型部署决策提供了更全面的信号，特别适用于需要审计推理过程的场景。

论文推理模型评估框架逻辑连贯性模型审计 DeepSeek-V3

推荐理由：这个框架解决了「只看答案正确率」的评估盲区，做模型选型或合规审计的团队会发现，原来高分模型可能推理过程一团糟——建议点开看看你的模型在哪个维度翻车。

原文

12:37

arXiv: DeepSeek@Faizan Faisal

精选

一项新研究评估了GPT-5.4、DeepSeek-V4-Flash和Gemma-4-E4B在临床SOAP笔记生成中的表现，发现启用推理能力反而显著降低了GPT-5.4的输出质量。研究使用OMI Health、ACI-Bench和PriMock57三个数据集，通过2x2实验设计控制推理和检索增强生成（RAG）两个因素。结果显示，非推理配置的GPT-5.4整体质量最高，而DeepSeek-V4-Flash在推理配置中表现最佳。同源RAG带来模型依赖的小幅提升，但推理能力不应被假设为能自动改善对保真度敏感的临床文档生成。

论文推理模型临床文档 SOAP笔记 GPT-5.4 DeepSeek-V4-Flash

推荐理由：医疗AI开发者注意了：推理模型在临床文档任务上可能适得其反，做医疗NLP的团队在部署前务必做任务专属评估，别盲目相信推理能力。

原文

12:37

arXiv: DeepSeek@Yu Wang, Minghao Liu, Jiayun Wang, Jinrui Huang, Ankit Shah, Wei Wei

精选72°

本文首次揭示了大型语言模型（LLM）推理过程中置信度的动态模式：正确推理轨迹的置信度随时间提升（正增益），而错误轨迹则衰减。基于此发现，作者提出置信度动态增益（CDG）投票方法，在多个开源模型（DeepSeek-R1、gpt-oss、Gemma-3、Qwen-QwQ）和基准测试（AIME24/25、HMMT25、BRUMO25）上显著提升了推理答案选择的准确性。该方法为推理优化提供了新的判别信号，并附有理论解释。代码已开源。

论文推理模型置信度动态投票优化开源/仓库 LLM 推理

推荐理由：做 LLM 推理优化的开发者终于有了一个基于置信度动态的简单有效方法——CDG 投票在多个模型上都能提升准确率，值得直接试。

原文

11:46

arXiv cs.AI@Haolang Zhao, Yunbo Long, Lukas Beckenbauer, Alexandra Brintrup

精选72°

深度研究智能体在处理复杂信息时，现有系统依赖大模型隐式推理来演化中间表征，导致信息污染和错误传播。VeriTrace 提出通过显式反馈循环（解释更新、偏差反馈、模式修正）来持续对齐任务理解与现实，并基于认知图谱框架实现。在 Qwen3.5-27B 基座上，VeriTrace 在 DeepResearch Bench 洞察力指标上提升 4.22 个百分点，在 DeepConsult 上胜率提升 5.9 个百分点。与 Config-DeepSeek 结合，它取得了 DRB 上最强的可复现开源结果。

论文深度研究智能体认知图谱显式反馈推理模型开源/仓库

推荐理由：做深度研究或复杂推理系统的开发者，VeriTrace 用显式反馈替代隐式推理，解决了信息污染和错误传播的痛点，值得在开源项目中尝试。

原文

11:44

arXiv cs.AI@Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

精选

论文提出一种类似睡眠的记忆巩固机制，让 Transformer 模型在长上下文任务中表现更好。模型在推理过程中定期将近期上下文转换为持久化的快速权重，并清除键值缓存，类似生物体的睡眠过程。在睡眠阶段，模型对积累的上下文进行多次离线循环处理，通过局部学习规则更新状态空间模型（SSM）块中的快速权重。在合成任务（如元胞自动机、多跳图检索）和数学推理任务上，该方法显著优于普通 Transformer 和 SSM-注意力混合模型。增加睡眠时长 N 能持续提升性能，尤其在需要深层推理的样本上效果最明显。

论文 Transformer 长上下文记忆巩固推理模型状态空间模型

推荐理由：这项研究给长上下文推理带来了新思路——用类似睡眠的离线巩固机制解决注意力瓶颈，做长链推理或复杂数学问题的开发者值得关注，尤其适合处理超长上下文的场景。

原文

5月22日

11:02

arXiv cs.AI@Ali Hatamizadeh, Yejin Choi, Jan Kautz

精选72°

线性注意力模型通过固定大小的循环状态替代软注意力的无限缓存，但如何高效编辑压缩记忆而不打乱已有关联是难点。现有Delta规则模型使用单一标量门控同时控制擦除旧内容和写入新内容，存在耦合限制。Gated DeltaNet-2提出通道级擦除门控b_t和写入门控w_t，将两者解耦，可退化为KDA和Gated DeltaNet。在1.3B参数、100B FineWeb-Edu tokens训练下，该模型在语言建模、常识推理和检索任务上全面超越Mamba-2、Gated DeltaNet、KDA和Mamba-3。尤其在长上下文RULER基准的多键检索设置中优势显著，代码已开源。

论文线性注意力门控机制长上下文开源/仓库推理模型

推荐理由：线性注意力研究者终于有了更精细的门控机制——Gated DeltaNet-2把擦除和写入分开控制，做高效长序列建模的团队可以直接复现并对比效果。

原文

10:46

arXiv: DeepSeek@Xiaogeng Liu, Xinyan Wang, Yingzi Ma, Yechao Zhang, Chaowei Xiao

精选

论文研究了在推理任务中，教师模型token的可靠性并非均匀分布，而是与序列中的位置强相关。作者提出分支可行性诊断方法，发现位置得分是预测教师token可靠性的最强指标（AUROC达0.83），而局部不确定性得分效果很差。基于此，提出位置加权在线策略自蒸馏（PW-OPSD），在保持原有训练框架的同时，对越靠后的token赋予更高权重。在Qwen3-4B上，PW-OPSD使AIME 2024和2025的Avg@12分别提升1.0和1.1分，在DeepSeek-R1-Distill-Llama-8B和Olmo-3-7B-Think上也取得一致改进。该方法无需额外教师计算，直接利用轨迹结构提升蒸馏效果。

论文推理模型自蒸馏位置加权教师模型 token可靠性

推荐理由：做推理模型蒸馏的团队终于有了一个简单有效的改进方向——不用改架构，只需调整token权重就能提升1分以上，值得在自家模型上复现。

原文

5月21日

12:11

arXiv cs.LG@Kaiyi Zhang, Wei Wu, Yankai Lin

精选

DelTA提出了一种新方法，解决强化学习从可验证奖励（RLVR）中训练大语言模型时，token级信用分配不准确的问题。研究发现，标准RLVR更新中，高频格式token会主导梯度方向，掩盖真正区分高/低奖励的关键token。DelTA通过估计token系数，放大判别性方向、抑制共享模式，使更新更聚焦于推理关键步骤。在7个数学基准上，DelTA在Qwen3-8B和14B上分别平均提升3.26和2.62分，代码生成和跨领域任务也验证了其泛化能力。

论文强化学习 Token信用分配推理模型 RLVR 数学推理

推荐理由：做RLHF或推理模型训练的团队，终于有了一个能精准分配token级信用的方法——DelTA解决了高频格式token淹没关键信号的问题，数学和代码任务上效果显著，值得在自家模型上试试。

原文

12:09

arXiv cs.LG@Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng

精选76°

研究发现强化学习（RLVR）训练中模型权重的变化轨迹是低秩且高度可预测的，大部分性能提升来自秩-1近似。基于此，研究者提出RELEX方法，仅需观察少量训练步数（如50步），通过线性回归外推未来检查点（如1000步），即可匹配甚至超越完整RLVR训练的性能。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上验证，RELEX仅需15%的训练步数即可达到同等效果，且能外推至10-20倍于观察窗口。该方法无需额外学习模型，通过丢弃随机优化噪声实现去噪效果，从而提升外推性能。

论文强化学习推理模型低秩近似参数外推 Qwen

推荐理由：RLVR训练成本高昂，RELEX用极低成本实现同等推理提升，做LLM推理优化的团队可以直接用代码复现，值得一试。

原文

11:55

arXiv cs.LG@Benhao Huang, Zhengyang Geng, Zico Kolter

精选

Equilibrium Reasoners (EqR) 是一种新的推理框架，通过将推理过程建模为学习任务条件吸引子（latent dynamical systems）来实现可扩展的测试时计算。该框架无需外部验证器或任务特定先验，通过增加迭代深度（更多步数）和广度（聚合多个随机轨迹）来提升性能。实验表明，测试时计算的增益与向解对齐吸引子的收敛程度紧密相关。在 Sudoku-Extreme 任务上，EqR 通过展开多达 40,000 层，将前馈模型的准确率从 2.6% 提升至超过 99%。这一视角为理解迭代潜在模型中的可扩展推理提供了机制性解释。

论文推理模型测试时计算吸引子可扩展性 EqR

推荐理由：EqR 用吸引子理论解释了为什么迭代推理能泛化，做推理模型或可扩展计算的团队值得关注——它可能改变你对测试时计算分配的理解。

原文

11:01

arXiv cs.AI@Sixiong Xie, Zhuofan Shi, Haiyang Shen, Jiuzheng Wang, Siqi Zhong, Mugeng Liu, Chongyang Pan, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma

精选72°

DeepWeb-Bench 是一个新的深度研究基准，旨在评估 AI 模型在开放网络上进行复杂研究的能力。与现有基准不同，该基准要求模型进行大规模证据收集、跨来源整合和长链条多步推理，难度显著提升。研究对九个前沿模型进行了评估，发现检索并非主要瓶颈（仅占12-14%错误），而推导和校准失败占70%以上。强模型和弱模型的失败模式不同：强模型主要因推导不完整出错，弱模型则因虚假精确性出错。该基准还揭示了模型在领域上的真实专长差异，跨模型一致性仅为0.61。

论文基准测试深度研究推理模型评估方法 DeepWeb-Bench

推荐理由：做 AI 评估或研究基准的团队会发现，DeepWeb-Bench 揭示了现有基准无法区分的模型能力差异——尤其是推导和校准的短板。建议关注其分能力族评估和来源溯源设计，这对理解模型真实研究能力很有帮助。

原文

10:22

arXiv cs.LG@Xixiang He, Qiyao Sun, Ao Cheng, Xingming Li, Xuanyu Ji, Hailun Lu, Runke Huang, Qingyong Hu

精选72°

Group Relative Policy Optimization (GRPO) 在提升大语言模型推理能力方面表现出色，但存在优势坍塌问题：当组内奖励同质化（如全对或全错）时，优势趋近于零，导致梯度消失。研究者首次提出诊断指标 Advantage Collapse Rate (ACR)，量化训练批次中梯度无效的比例，并在0.5B至14B参数模型上验证了ACR对训练停滞和最终性能的强预测性。为缓解该问题，他们提出 Adaptive Virtual Sample Policy Optimization (AVSPO)，通过实时ACR监控注入虚拟奖励样本，无需额外模型推理即可从同质组中学习。AVSPO将优势坍塌减少58-63%，在所有模型规模上带来4-6个百分点的准确率提升，且保持了域外泛化能力。代码和数据集已开源。

论文 GRPO 优势坍塌 RLVR 推理模型开源/仓库

推荐理由：GRPO用户终于有了解决训练停滞的实用工具——AVSPO无需额外推理成本就能提升4-6个点准确率，做大模型RL训练的团队可以直接试。

原文

10:22

arXiv cs.LG@Lukas Twist, Helen Yannakoudakis, Jie M. Zhang

精选

论文揭示了一个关键问题：推理模型在微调时，若使用不含推理痕迹的普通指令-回复数据，会导致“推理痕迹坍塌”——模型虽能给出看似合理的最终答案，但中间推理步骤的结构性有效性大幅下降。研究者提出了一个结构评估框架，将答案正确性与推理痕迹有效性分离，测量有效、空、缺失和截断的推理痕迹。实验发现，标准监督微调会迅速抑制有效推理痕迹，而仅看答案正确率会掩盖这一失败。论文还表明，简单的损失掩码策略可以显著缓解坍塌，无需教师生成的推理痕迹。

论文推理模型微调推理痕迹坍塌评估框架损失掩码

推荐理由：做推理模型微调的团队必须警惕：只看答案正确率会误判模型能力，这篇论文给出了评估和缓解方案，建议做模型对齐的开发者仔细阅读。

原文

5月20日

10:55

arXiv: DeepSeek@Yanhang Li, Zhichao Fan, Zexin Zhuang

精选

该研究审计了推理模型在遗忘后是否仍通过思维链泄露已遗忘内容。使用 DeepSeek-R1-Distill-Qwen-7B 和 LoRA 记忆虚构作者，通过 NPO 遗忘和六 token canary 头条件，发现思维链替换为短非 canary 前缀可显著降低答案率，而 bypass 间隙本身不能可靠指示权重级记忆。不同种子下结果不一致，甚至出现反转。推荐在标准审计外增加解码时模板替换作为廉价检查。

论文推理模型遗忘审计思维链记忆残留 DeepSeek-R1

推荐理由：做模型遗忘审计的团队会发现，思维链泄露可能被误判为权重记忆，这篇论文提供了一个简单有效的 sanity check 方法，值得在评估流程中加上。

原文

10:46

arXiv: DeepSeek@Shuyu Wei, Jian Sun, Delai Qiu, Yining Wang, Shengping Liu, Jiaen Liang, Ying Fu, Wei Huang, Jitao Sang

精选

针对大语言模型推理中响应长度与准确率的权衡问题，研究者提出条件熵塑形（CES）框架。CES基于DAPO，利用token级熵作为不确定性信号，对正确推理路径的高熵“分叉点”进行惩罚以提升简洁性，对错误路径的高熵点给予奖励以鼓励探索。在DeepSeek-R1-Distill-7B上测试12个数学基准，CES在保持或提升准确率的同时显著缩短响应长度，在1.5B小模型和域外基准上也有类似效果。该方法为自适应推理提供了新思路，尤其适合需要高效准确推理的场景。

论文推理模型熵塑形响应长度优化 DeepSeek-R1-Distill-7B 数学推理

推荐理由：做LLM推理优化的团队终于有了一个能同时提升准确率和缩短响应长度的方案——CES框架在数学推理任务上效果显著，建议做模型推理效率的开发者点开看看具体实现。

原文

10:42

arXiv: DeepSeek@Moiz Arif, Avinash Maurya, Sudharshan Vazhkudai, Bogdan Nicolae

精选72°

本文系统研究了从标准生成式 AI 向推理密集型架构（如长链思维模型）转变时，LLM 推理面临的新瓶颈。研究发现，推理工作负载产生大量推理 token，使推理进入“容量受限”阶段，而非传统的计算受限阶段。通过评估 8B 到 671B 参数模型，论文揭示了数据并行在小模型上高效但受 KV 缓存碎片影响，张量并行在 32B 参数附近有次线性增益，而大规模稠密模型受互联和内存带宽限制，稀疏 MoE 模型则受路由和同步延迟限制。这些发现为构建下一代推理基础设施提供了决策框架。

论文推理模型并行策略 KV缓存 MoE 系统优化

推荐理由：这篇论文戳中了推理模型部署的核心痛点——从计算瓶颈转向容量瓶颈，做 LLM 推理优化的工程师和架构师值得细读，能帮你避开常见的并行策略陷阱。

原文

10:36

arXiv cs.AI@Husnain Amjad, Raja Khurram Shahzad, Aamir Shahzad, Mehwish Fatima

精选

这篇综述系统梳理了大型语言模型在数学推理领域的最新进展，涵盖约120篇论文。文章提出了统一的数学数据集分类法，区分了预训练语料、监督微调资源和评估基准。它分析了推理架构和训练策略（如工具集成、验证器引导推理、参数高效微调）对鲁棒性和泛化能力的影响。比较评估揭示了最终答案准确率与过程级推理验证之间的差距。最后，论文指出了常见失败模式（如推理忠实性问题、基准偏差）和未来研究方向。

论文推理模型数学推理综述/论文评估基准 LLM

推荐理由：做LLM推理研究或评估的团队，这篇综述帮你系统梳理了120篇论文的脉络，直接拿来当研究起点，省去大量文献筛选时间。

原文

10:25

arXiv cs.AI@Yannis Bendi-Ouis, Romain de Coudenhove, Xavier Hinaut

精选

CogScale 是一个包含 14 个可扩展合成任务的基准测试，旨在隔离和评估模型在不同参数规模下的认知与记忆能力。它提供了一个轻量级标准化框架，让研究者无需大规模训练即可快速验证架构创新。研究者在严格参数预算（1k、10k、100k）下评估了 GRU、LSTM、xLSTM、ESN、Mamba、Transformer 解码器和编码器-解码器七种架构。结果显示，经典 RNN 和回声状态网络在严格参数预算下擅长基础记忆，但只有注意力机制和现代状态空间模型在推理复杂度和任务难度提升时保持高性能。

论文基准测试序列处理记忆能力推理模型 CogScale

推荐理由：序列模型研究者终于有了一个轻量级、可扩展的评估工具，CogScale 能帮你快速筛选架构创新，避免盲目大规模训练的高成本。做记忆与推理能力对比的团队可以直接用这个基准来验证新想法。

原文

10:24

arXiv cs.AI@Yuze Zhao, Junpeng Fang, Lu Yu, Zhenya Huang, Kai Zhang, Qing Cui, Qi Liu, Jun Zhou, Enhong Chen

精选72°

这篇论文通过控制预训练实验，重新审视了代码训练对语言模型推理能力的影响。研究发现，纯代码主要提升编程能力，而非通用推理能力，甚至与数学等知识密集型任务存在竞争关系。真正提升数学推理的是跨领域的结构化推理信号，如代码-文本和数学-文本混合数据。在固定数学预算下，增加结构化数学样本密度能显著提升复杂数学推理，同时保持编程性能。分析还显示，数据组成效应反映在专家激活模式中，为跨领域的竞争与协同提供了机制层面的证据。

论文推理模型预训练数学推理代码训练数据策略

推荐理由：这篇论文戳破了“代码训练提升通用推理”的迷思，做预训练数据策略的团队值得细看——它指明了如何通过结构化推理信号精准优化数学能力，而非盲目堆代码。

原文

5月19日

10:25

arXiv: Anthropic@Nikola Milosevic

精选

本文提出一种双过程记忆架构，将即时情景记忆（固定10条消息窗口）与长期知识（约3 tokens/消息增长）解耦，解决LLM在科学协作中的上下文窗口饱和问题。在15,000条消息、跨6个模型（OpenAI、Anthropic、Google）的1,440次查询评估中，该架构在10,000条消息时仍保持70-85%准确率，延迟1-2秒，且比全上下文模型节省62% tokens。研究发现双过程架构在数值/时间查询上表现优异（65-90%准确率），而RAG在历史检索上更优（60-85%），并揭示了合成测试与现实工作流之间的“模拟到现实”差距。该架构成功管理了14,000+科学事实（125k tokens），证明领域特定记忆整合可支持超长上下文持续运行。

论文记忆架构科学智能体上下文窗口推理模型 LLM

推荐理由：做科学计算或长期实验分析的AI开发者，终于有了对抗上下文饱和的实用方案——双过程架构直接省62% tokens还保持高精度，值得在长链推理任务中试试。

原文

5月15日

10:56

arXiv cs.AI@Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang

精选

OpenDeepThink 是一种基于种群的测试时计算扩展框架，通过成对 Bradley-Terry 比较选择最佳推理候选，解决了并行采样中的选择瓶颈。每次迭代中，LLM 对随机候选对进行评判并聚合为全局排名，保留顶部候选并变异前四分之三，丢弃底部四分之一。在 Codeforces 上，Gemini 3.1 Pro 的 Elo 评分在 8 轮 LLM 调用（约 27 分钟）内提升 405 分。该方法跨弱强模型无需重新调参，在 HLE 基准上，增益集中在客观可验证领域，主观领域则出现逆转。同时发布了 CF-73 数据集，包含 73 道专家评级的 Codeforces 问题。

论文推理模型测试时计算扩展 Bradley-Terry 并行推理 Codeforces

推荐理由：OpenDeepThink 用 Bradley-Terry 聚合解决了并行推理的候选选择难题，做推理扩展的开发者可以直接复现，效果显著且无需调参。

原文

10:10

arXiv: DeepSeek@Libo Sun, Po-wei Harn, Peixiong He, Xiao Qin

精选

该研究系统评估了七种KV缓存压缩机制在数学推理任务上的表现，发现所有现有方法在小预算下均被拒绝。作者提出一种名为α的简单修改，通过引入多样性惩罚项替代传统argmax-top-k选择，在Qwen-7B和Llama-8B模型上，在64和128预算下，α在两项测试中显著优于基线。该发现表明，最小化的评分修改比复杂的结构重设计更有效，且严格的实验协议使这一不对称性得以显现。

论文 KV缓存压缩推理模型数学推理 Qwen Llama

推荐理由：KV缓存压缩是长上下文推理的关键瓶颈，做LLM推理优化的开发者可以直接参考α方法——它用一行修改就打败了七种复杂方案，值得在自家模型上试试。

原文

10:08

arXiv: DeepSeek@Bin Lei, Caiwen Ding, Jiachen Yang, Ang Li, Xin Eric Wang

精选

研究发现，思维链推理长度增加时，模型对早期关键洞察的注意力会逐渐减弱，导致准确率在达到峰值后下降。为此，研究者提出InsightReplay方法，让模型在推理过程中定期提取关键洞察并回放到当前生成位置附近，保持其可访问性。在8B和30B规模的Qwen3.5、DeepSeek-R1-Distill-Qwen、Gemma-4模型上，覆盖AIME、HMMT、GPQA Diamond、LiveCodeBench v5等基准测试，3轮InsightReplay在所有24个设置中均带来准确率提升，平均提升1.65个百分点，最高单设置提升达9.2个百分点。结果表明，测试时扩展的有效性不仅取决于推理量，还取决于关键中间洞察在长推理轨迹中的可访问性。

论文推理模型思维链注意力机制 InsightReplay 长上下文

推荐理由：长链推理的注意力衰减问题终于有了针对性解法，做推理模型优化或长上下文应用的团队值得关注——InsightReplay简单有效，可以直接在现有CoT框架上尝试。

原文

5月14日

13:27

arXiv cs.AI@Tyler Alvarez, Ali Baheri

精选

该论文提出了一种新的幻觉检测方法，将多步推理中的幻觉视为隐藏状态轨迹的几何特性，而非传统对整个输出打分。作者通过对比PCA构建标签条件教师模型，提取七个几何过渡特征，并蒸馏出BiLSTM学生模型，仅需单次前向传播即可定位首个错误步骤。在ProcessBench、PRM800K等基准测试中，该方法优于基于熵、探针和注意力的基线，教师模型跨语言模型和数据集稳定迁移，但学生模型在分布偏移下失效。研究将步骤级幻觉检测重新定义为轨迹动力学问题，并指出分布偏移下保持对比传输裕度是部署的关键障碍。

论文幻觉检测推理模型隐藏状态轨迹对比PCA 分布偏移

推荐理由：这篇论文把幻觉检测从“整体打分”推进到“单步定位”，做推理模型调试和可解释性研究的团队值得关注——它用几何视角揭示了错误发生的精确位置，比传统方法更细粒度。

原文

13:26

arXiv: DeepSeek@Chenjun Xu, Zhennan Zhou, Zhan Su, Bill Howe, Lucy Lu Wang, Bingbing Wen

精选

长链推理（Long CoT）虽能提升多步推理性能，但常导致模型过度思考，产生低效推理，增加推理成本。STOP 提出一种结构化在线策略剪枝算法，通过自蒸馏、节点分割和推理树构建，识别并保留最早的正确推理节点（ECN），去除冗余推理。在 DeepSeek-R1-Distill-Qwen-7B 等模型上，STOP 在低数据微调场景下减少 19.4%-42.4% 的生成 token，同时基本保持准确率。该方法比教师引导剪枝带来更小的分布偏移，并将推理努力从冗余验证转向更高效的探索。

论文推理模型剪枝/优化低数据微调长链推理 DeepSeek-R1

推荐理由：做推理模型微调或部署的团队，STOP 解决了低数据场景下长链推理成本高的问题，直接减少 token 消耗，建议试试这个轻量剪枝方案。

原文

5月13日

19:12

arXiv cs.AI@Yuxiao Yang, Xiaoyun Wang, Weitong Zhang

精选

本文研究了在线策略自蒸馏（OPSD）方法，即语言模型通过在其自身生成的轨迹上蒸馏特权教师分布来提升推理能力。作者发现OPSD存在一个常见但常被忽视的问题：教师响应中的自我反思偏差和模板会导致token级监督校准错误。为此，他们提出OGLS-SD框架，利用可验证的结果奖励对比成功与失败的在线轨迹，并通过logit引导校准教师logits。该方法结合结果级正确性与密集的token级引导，在多个基准上稳定了自蒸馏过程并提升了推理性能。

论文自蒸馏推理模型 logit校准结果引导 LLM

推荐理由：如果你在做LLM推理优化或自蒸馏训练，OGLS-SD解决了教师-学生分布不匹配的痛点，用结果奖励校准logits的思路直接可复用，值得仔细看方法细节。

原文

19:12

arXiv: DeepSeek@Zizhao Chen, Yuying Li, Siting Lin, Lianxi Wang

精选75°

大语言模型在复杂推理中常出现“过度思考”问题，导致推理链过长、效率低下。现有强化学习方法通过设计复杂奖励函数压缩推理链，但高质量样本在探索空间中极为稀疏，形成采样瓶颈。受认知科学启发，研究者从理论上证明，参考答案引导的后验分布比先验分布具有更高期望效用，可突破高质量样本的采样瓶颈。为此，他们提出VPG-EA框架，将高效推理形式化为变分推断问题，引入效率感知的证据下界作为理论基础。该框架采用参数共享的双流架构实例化后验分布和先验策略，通过交叉视图评估过滤伪高效路径，再通过变分蒸馏将后验的高效模式单向迁移至先验策略。在DeepSeek-R1-Distill-Qwen-1.5B和7B规模上的实验显示，VPG-EA在综合效率指标ε³上分别比最强基线提升8.73%和12.37%。

论文推理模型效率优化变分推断过度思考知识蒸馏

推荐理由：这篇论文为LLM推理效率问题提供了理论严谨且可落地的解决方案，做推理优化或模型压缩的研究者可以直接参考其变分蒸馏方法，值得细读。

原文

19:12

arXiv: DeepSeek@Wenkai Li, Fan Yang, Ananya Hazarika, Shaunak A. Mehta, Koichi Onoue

精选75°

一项新研究系统性地检验了思维链（CoT）推理过程与最终答案形成时间之间的对齐程度。研究者提出了一个步骤级的检测-分类-比较框架，使用答案承诺代理、Patchscopes、调谐透镜探针和因果方向消融等方法，对九个模型和七个推理基准进行了分析。结果显示，潜在承诺与显式答案到达仅在平均 61.9% 的步骤上对齐，其中 58% 的不匹配事件表现为“虚构延续”——模型在答案已稳定后继续生成看似深思熟虑的文本。在架构匹配的 Qwen2.5 与 DeepSeek-R1-Distill 对比中，推理管线改变了失败组成而非整体对齐度。研究还发现，步骤级对齐度越低，CoT 的实用性反而越大，表明最受益于 CoT 的场景往往时间忠实性最差。截断实验和捐赠-破坏测试进一步表明，大量承诺后的文本对最终答案并非关键。

论文思维链可解释性 AI安全推理模型忠实性

推荐理由：这项研究戳破了 CoT 推理过程忠实反映模型思考过程的假设，做 AI 安全、可解释性研究或依赖 CoT 审计的团队值得关注——它提醒我们，看起来合理的推理链条可能只是事后编造的故事。

原文

5月12日

19:11

arXiv: DeepSeek@Aojie Yuan, Zhiyuan Julian Su, Haiyue Zhang, Yi Nian, Yue Zhao

75°

研究揭示了链式思维推理中的一个反直觉现象：语言模型能在内部（隐藏状态）精确检测自身推理错误（AUROC达0.95），但外在表达的信心与正确推理几乎无异（4.55/5 vs 4.87/5）。这一错误意识从推理第一步就存在（AUROC 0.79），并在Qwen、Llama、Phi等模型家族及DeepSeek-R1等推理模型上得到验证。然而，所有基于该信号的干预尝试（激活导向、最佳N选1、自我修正、激活修补）均失败，说明错误表征是计算质量的诊断指标，而非可修改的因果杠杆。这划定了解释性边界：推理中的错误表征与可编辑的事实知识本质上不同。

论文推理模型可解释性链式思维错误检测 AI安全

推荐理由：该研究揭示了当前可解释性方法的关键局限——高精度的内部错误检测并不能转化为有效修正，挑战了对CoT推理过程的因果干预假设。对AI安全与实践者有重要警示：依赖隐藏状态进行推理纠错可能行不通。

原文

19:11

arXiv: DeepSeek@Xia Yang, Xuanyi Zhang, Hao Hu, Feng Ji

本研究提出一个评估LLM数学推理策略多样性的框架，通过80个AMC和AIME数学问题及217个参考解题策略，测试了四个前沿模型。在单一提示下，所有模型准确率达95%-100%；但在多策略提示下，Gemini生成184个有效策略，DeepSeek 152个，GPT 151个，Claude 110个。模型总共发现50个基准之外的新策略，但在几何和数论领域差距最大。重复运行测试中，最强模型三次运行仅恢复参考集71%的策略。研究认为策略多样性是评估数学推理能力的重要补充维度。

论文推理模型数学推理评估框架策略多样性

推荐理由：该研究揭示了当前LLM数学能力评估的盲区：高准确率不等于推理多样性。对于数学教育和技术应用而言，理解模型能否灵活切换解题思路至关重要，这一框架为未来评估提供了新方向。

原文

19:11

arXiv: DeepSeek@Gabriel Garcia

70°

该研究揭示了当前思维链(CoT)忠诚度评估中的系统性问题：标准损坏研究（通过替换步骤为错误来测量准确性）实际上检测的是答案文本出现的位置，而非计算发生的位置。实验表明，在GSM8K数据集中，仅移除答案语句（保留所有推理步骤）即可将后缀敏感性降低约19倍（3B模型）。冲突答案实验显示，模型在消费时会系统性地遵循显式答案文本，即使推理过程中未提前确定答案（早期承诺低于5%）。该效应在14B规模下仍明显（8.5倍比率），但在32B时趋于消失。研究提出了三项前提条件作为最低标准：仅问题控制、格式表征、全位置扫描。

论文推理模型思维链评估方法认知科学大语言模型

推荐理由：该发现对当前CoT忠诚度评估方法的可靠性提出根本性质疑，提醒研究者注意数据格式的混淆效应，对评估模型推理能力具有方法论指导意义。

原文

19:11

arXiv cs.AI@Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar

该研究提出了一种无需训练的诊断框架，通过分析每token、每问题、每教师的梯度对齐度，揭示了on-policy蒸馏的有效条件。研究发现：在模型错误回答时蒸馏信号更有效，正确回答时信号噪声大；最优蒸馏配置依赖于学生模型能力和任务类型，不存在通用最优方案。该框架扩展了Google在推理模型训练中的on-policy蒸馏技术，为优化蒸馏策略提供了理论依据。

论文推理模型蒸馏/训练自蒸馏

推荐理由：该研究通过细粒度分析挑战了蒸馏实践中默认假设，为选择教师模型和蒸馏配置提供了理论指导，对大规模推理模型训练具有实际参考价值。

原文

19:11

arXiv: OpenAI@Songtao Wei, Yi Li, Zhikai Li, Xu Hu, Yuede Ji, Guanpeng Li, Feng Chen, Carl Yang, Zhichun Guo, Bingzhe Li

LEAD提出了一种在线自适应推理压缩方法，解决大推理模型（如OpenAI o1、DeepSeek-R1）在CoT过程中过度冗长的问题。传统强化学习方法使用静态权重和全局长度约束，难以平衡正确性与效率，且无法适应不同问题的推理预算需求。LEAD通过Potential-Scaled Instability动态校准每步的正确-效率权衡，并基于模型自身正确rollouts在线估计每个问题的目标长度，然后应用对称效率奖励——既惩罚过度思考也惩罚过度压缩。在五个数学推理基准上，LEAD取得了最高的准确率和准确-效率得分，同时生成比基础模型更短的输出。

论文推理模型推理效率自适应压缩强化学习 Chain-of-Thought

推荐理由：该方法为推理模型部署中的计算效率问题提供了自适应解决方案，对于实际应用中降低推理成本和延迟具有重要价值，特别是在数学推理等需要长链推理的场景。

原文

19:10

arXiv: OpenAI@Wenxuan Li, Pedro R. A. S. Bassi, Xinze Zhou, Jakob Wasserthal, Alan L. Yuille, Zongwei Zhou

RadThinking是一个用于放射学纵向临床推理的视觉问答数据集，覆盖20362次CT扫描、9131名患者和2077名健康对照。数据集按推理深度分为三级：基础感知问题、单步规则推理问题和需要多步链式思维推理的组合问题。每个组合问题都附带基于临床报告标准的链式思维路径。该数据集首次将癌症筛查临床推理分层标注，支持训练和评估AI系统的推理能力而不仅仅是检测能力。

论文医学影像推理模型视觉问答临床报告标准癌症筛查

推荐理由：该数据集为训练AI进行符合临床指南的多步推理提供了标准化基准，对医学影像AI从感知向认知升级有重要价值。

原文

5月11日

19:03

19:03arXiv: DeepSeek（学术论文）

70°

该研究揭示了共享输出Token预算时，长思维链会挤占答案空间，导致准确率下降的“耦合税”现象。在GSM8K、MATH-500等任务中，非思维链模式在≤2048 Token下表现更优，且Qwen3模型呈逆缩放规律。作者提出截断-浪费分解模型预测关键点，并通过拆分预算生成方法（如IRIS）将MATH-500准确率提升至83.6%。结果表明测试时推理应被视为预算分配问题。

论文思维链 Token预算推理模型 Qwen3 DeepSeek-R1

推荐理由：该工作对当前LLM推理优化具有实际指导意义，提醒研究者在固定输出长度场景中平衡推理链与答案空间，避免盲目延长思维链。

原文

11:44

11:44arXiv cs.AI（学术论文）

论文提出PACS（概率常识溯因推理）框架，解决神经符号系统中形式逻辑求解器缺乏常识的问题。传统方法假设常识事实普遍一致，但实际中个体常识存在差异。PACS通过LLM和形式求解器对个体常识信念进行抽样证明，并聚合结论，在多个基准测试中优于思维链、先前神经符号方法和搜索式方法。该工作首次将概率建模引入常识溯因推理，为处理主观常识提供了新思路。

论文推理模型常识推理神经符号 LLM 概率建模

推荐理由：通过概率建模处理常识变异，PACS提升了神经符号推理的鲁棒性，对增强LLM在开放世界推理中的常识能力有实际价值。

原文

11:44

11:44arXiv cs.AI（学术论文）

这项研究通过fMRI记录人类学习新视频游戏时的脑活动，对比了前沿推理模型（LRMs）与深度强化学习代理及贝叶斯理论模型。研究发现LRMs不仅在游戏表现上最接近人类，还能以数量级优势预测人脑活动，且这种对齐主要源于模型对游戏状态的上下文表示而非下游推理。实验证明了LRMs作为复杂环境中人类学习与决策的计算模型的潜力。

论文推理模型行为对齐脑活动预测强化学习游戏学习

推荐理由：该研究首次系统比较了前沿推理模型与强化学习在行为与脑活动对齐上的差异，为理解AI与人类认知机制的一致性提供了重要证据，对认知科学和AI体设计有参考价值。

原文

11:43

11:43arXiv cs.AI（学术论文）

CA-SQL是一种新型Text-to-SQL管道，通过任务难度估计动态调整搜索广度以探索候选查询。该方法结合进化搜索的提示种子策略和新型投票机制，在BIRD基准测试的困难子集上使用GPT-4o-mini达到51.72%准确率，超越使用更大模型的方法。整体执行准确率达61.06%，Soft F1得分68.77%，展示了在复杂SQL生成任务中高效利用计算资源的能力。

论文 Text-to-SQL 推理模型计算分配自然语言到查询

推荐理由：该方法为Text-to-SQL领域提供了可落地的复杂度感知计算分配方案，对提升LLM在结构化查询等推理密集型任务中的效率有参考价值。

原文