全部 AI 动态 · AI 热点

6月15日

11:10

arXiv cs.AI@Shikun Liu, Mufei Li, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan Li

Parallel-Synthesis框架使合成器直接消费并行工作线程的KV缓存，避免文本拼接冗余。它通过缓存映射器校准独立分支缓存，并微调合成适配器以支持非顺序缓存接口。在9个数据集（数学、科学问答、代码生成、GAIA、多智能体数据库诊断）上，7个超越或持平文本合成基线，首token延迟降低2.5-11倍。该工作为并行智能体分支的高效合成提供了新接口。

论文 Parallel-Synthesis LLM Agent 智能体推理模型

推荐理由：并行合成提速2.5-11倍

原文

6月12日

11:25

arXiv cs.LG@Nathaniel Bottman, Yinhong Liu, Kyle Richardson

精选

论文提出一种名为Operadic Consistency（OC）的新方法，用于在无真实标签的情况下检测大语言模型的推理失败。OC基于操作理论，通过比较模型对组合问题的直接回答与分解后组合回答的一致性，生成每个问题的置信度信号。在12个指令微调模型（4B到671B参数）和4个多跳QA数据集上，OC与准确率的皮尔逊相关系数达0.86-0.94，且在所有数据集上均优于链式思维自一致性（CoT-SC）和语义熵等基线。在选择性预测任务中，OC在固定覆盖率下显著提升准确率，AUARC提升0.086-0.096，AUROC提升0.092-0.164。该方法无需标注数据，为LLM推理可靠性提供了一种高效、通用的诊断工具。

论文推理模型组合推理置信度评估无标签检测操作理论

推荐理由：做LLM推理评估的团队终于有了一个无需标签就能检测组合推理失败的新工具——Operadic Consistency在多个数据集上表现稳定，比CoT-SC更可靠，建议关注这个方向。

原文

10:19

arXiv cs.AI@Zach Studdiford, Gary Lupyan

该研究通过对比人类与25个大型语言模型在常识推理任务中的表现，发现两者在推理错误上存在相似模式。研究进一步识别出驱动LLM响应的注意力头，这些注意力头实现了模式匹配机制，并能预测人类因无关提示细节而产生的看似不合理的推理错误。结果表明，人类和LLM的日常因果推理更符合模式匹配而非抽象世界模型。

论文推理模型模式匹配 LLM 认知科学常识推理

推荐理由：这项研究挑战了“人类推理基于抽象模型”的传统观点，对AI开发者和认知科学家都有启发——如果你关心LLM为何会犯“愚蠢”错误，或者想理解人类推理的底层机制，这篇论文值得一读。

原文

10:16

arXiv cs.AI@Daniel Scalena, Sara Candussio, Luca Bortolussi, Elisabetta Fersini, Malvina Nissim, Gabriele Sarti

该研究通过早期退出方法估计链式推理中每一步的因果重要性，发现推理过程存在一个“承诺边界”——模型在单个步骤中从临时猜测突然转向稳定、高置信度的最终答案。此边界之后的所有推理步骤（称为“表观CoT”）对最终答案概率无影响。利用注意力探针，研究人员能从中间步骤高精度线性解码答案形成阶段，并泛化到未见任务。基于此信号，模型可在承诺边界提前退出推理块，平均缩短55%的推理链长度，且性能几乎不受影响。

论文推理模型链式推理早退策略因果重要性注意力探针

推荐理由：这项研究揭示了CoT推理中大量步骤是“无用功”，做推理模型优化或长链推理应用的开发者可以直接用早退策略节省计算成本，值得关注。

原文

6月11日

11:01

arXiv: DeepSeek@Hao Xiang, Qiaoyu Tang, Le Yu, Yaojie Lu, Xianpei Han, Ben He, Le Sun, Bowen Yu, Peng Wang, Hongyu Lin, Dayiheng Liu

精选

RACES 提出一种递归自动组合框架，将可验证环境视为可组合的积木块，通过定义 SEQUENTIAL、PARALLEL、SORT、SELECT 等组合算子，自动融合环境以生成多样化的推理模式。实验表明，基于组合环境的强化学习训练能持续提升推理泛化能力：在 6 个未见基准上，DeepSeek-R1-Distill-Qwen-14B 平均提升 3.1 分，Qwen3-14B 从 58.8 提升至 61.1。仅用 50 个基础环境即可达到 300 个独立环境的训练效果，显著提高环境利用效率。该方法解决了手动构建环境线性扩展的瓶颈，为 LLM 推理能力扩展提供了可扩展的新路径。

论文推理模型强化学习环境组合泛化能力 RACES

推荐理由：做 LLM 推理强化学习的团队终于有了可扩展的环境构建方案——RACES 用递归组合替代手动堆叠，效率提升 6 倍，值得关注其开源实现。

原文

6月10日

11:05

arXiv cs.LG@Tong Xie, Yuanhao Ban, Yunqi Hong, Sohyun An, Yihang Chen, Cho-Jui Hsieh

精选

该论文重新审视了监督微调（SFT）的传统做法，指出最大化每个token的似然可能因噪声或与模型先验不一致而效果不佳。作者提出将SFT视为目标分布设计问题，并引入Q-target框架，将监督分解为对观测token的依赖程度和剩余概率的分配方式。基于此，他们提出了Target-SFT方法，直接根据期望的目标分布构建训练目标。在十个推理数据集-模型组合的实验中，Target-SFT一致优于现有方法，展示了基于目标的设计原则的有效性。这项工作为SFT提供了更统一的视角，并开辟了更广阔的搜索空间。

论文监督微调目标分布设计 Q-target框架推理模型 LLM训练

推荐理由：做LLM微调的团队终于有了一个更系统的设计框架——Target-SFT直接告诉你如何选择目标分布，而不是盲目拟合每个token。做推理模型优化的开发者建议试试，效果在多个数据集上都有提升。

原文

11:03

arXiv cs.LG@Semih Kara, Oğuzhan Ersoy

精选

该研究探讨了自蒸馏中上下文设计的关键作用，通过训练求解器接收冻结批评者的反馈，比较了三种条件：二元奖励、参考解决方案和步骤对齐批评。步骤对齐批评在Avg@12指标上比GRPO高出16.11分，比参考解决方案条件高出5.27分。分析表明，步骤对齐反馈仅针对推理失败的token，保留正确行为，而参考解决方案迫使模型在每个token上改变行为，导致效率降低。研究揭示了反馈与求解器推理的结构对齐是自蒸馏有效性的关键驱动因素。

论文自蒸馏反馈对齐推理模型 GRPO 批评者

推荐理由：做自蒸馏或强化学习的研究者会发现，步骤对齐反馈比传统奖励信号更高效，直接提升模型推理质量，值得在实验中尝试这种上下文设计。

原文

11:02

arXiv cs.LG@Evgenii Kortukov, Piotr Komorowski, Florian Klein, Paula Engl, Gabriele Sarti, Seong Joon Oh, Sebastian Lapuschkin, Wojciech Samek

精选

大型推理模型（LRM）在部署时常出现意外行为，现有测试时干预方法（如激活引导）虽能控制输出，但会降低输出质量。研究发现，传统方法依赖的“检测特征”只能识别已生成文本中的行为，对未来行为预测能力差。研究者训练了激活探针，能从中间推理步骤预测未来行为概率，准确率达64%-91%。基于此，他们提出文本级引导方法FPCG（未来探针控制生成），通过采样多个候选句子并选择未来行为概率最高的一个，实现几乎无质量损失的引导。实验表明，FPCG在多个激活引导失效的场景中仍有效，为控制LRM行为提供了更精细的途径。

论文推理模型模型控制激活探针行为预测 FPCG

推荐理由：这项研究解决了推理模型行为控制中输出质量下降的痛点，做模型对齐或安全控制的开发者可以直接用FPCG方法，在保持生成质量的同时精准引导模型行为。

原文

10:10

arXiv: DeepSeek@Wenhao Liu, Hao Shi, Yunhe Li, Weizhi Fei, Xiangyuan Wang, Mengzhe Ruan, Hanxu Hou, Peisong Wang, Linqi Song, Shuang Qiu

精选

ReasonAlloc 是一种无需训练的框架，针对大语言模型推理中长思维链（CoT）导致的KV缓存快速增长问题，提出分层预算分配方案。它通过离线层间预分配捕捉架构驱动的“推理波”模式，并结合在线头间实时重分配，将资源导向信息丰富的注意力头。在数学推理基准（MATH-500、AIME 2024）上，使用DeepSeek-R1-Distill-Llama-8B等模型测试，ReasonAlloc在低预算（128-512 tokens）下显著优于均匀预算方法（如R-KV、SnapKV）。该框架可即插即用于现有token驱逐策略，且推理开销极小。

论文 KV缓存压缩推理模型预算分配解码优化 DeepSeek-R1

推荐理由：推理模型的长CoT导致KV缓存爆炸，做推理优化的开发者可以直接用ReasonAlloc替代均匀预算方案，在低预算下获得显著性能提升。

原文

6月9日

10:35

arXiv cs.AI@Subramanyam Sahoo

精选

大语言模型常会“不懂装懂”，对超出知识边界的问题给出流畅但错误的回答。研究者提出结构化无知证书（SICs），要求模型明确输出缺失的领域交集、所需概念和检索查询，而非直接生成答案。团队构建了7347条跨领域未知-未知数据集，并用GRPO微调14B模型，使SIC输出JSON有效率达99.46%，概念特异性评分0.967。该方法证明，让模型显式表达认知边界是可学习且可衡量的能力，对提升AI可靠性和安全性有重要意义。

论文推理模型幻觉缓解结构化输出未知-未知 GRPO

推荐理由：这项研究直接戳中了LLM的“幻觉”痛点——用结构化输出让模型承认无知，做AI安全或可靠性研究的团队值得关注，尤其适合需要高可信度输出的应用场景。

原文

10:26

arXiv cs.AI@Shumeng Yang, Yisu Liu, Jiayi Zheng, Zhaohui Yang, Linjing Li

精选

论文提出PAEC（位置感知熵校准）方法，解决强化学习（RLVR）中策略熵过早崩溃的问题。传统全局熵正则化对所有位置均匀增加熵，在长推理轨迹中效率低下。PAEC通过局部top-p熵和top-two候选竞争构建软掩码，对决策敏感位置施加基于锚点的下界惩罚，防止这些位置的熵崩溃。在五个数学推理基准测试中，PAEC相比强RLVR基线提升了多数投票的宏平均性能，尤其在AIME类任务上增益明显。结果表明，推理RL中的熵管理应聚焦于决策敏感位置的选择性探索，而非均匀随机注入。

论文强化学习推理模型熵校准数学推理 RLVR

推荐理由：做LLM推理强化学习的团队终于有了更精细的熵控制方案——PAEC在数学推理任务上直接提升多数投票性能，做RLVR的开发者值得关注这个位置感知的新思路。

原文

09:27

arXiv: DeepSeek@Xiaojun Wu, Cehao Yang, Honghao Liu, Xueyuan Lin, Wenjie Zhang, Zhichao Shi, Xuhui Jiang, Chengjin Xu, Jia Li, Jian Guo

精选

Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架，它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据，维护每个技能的特征条件分类后验，并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上，增量修复将 SOP-Bench 从 80% 提升至 95%，Lifelong AgentBench 从 90% 提升至 100%，RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端，表明 Agent 技能进化应视为后验引导的优化，而非未校准的提示积累。代码已开源。

论文 LLM Agent 技能进化后验引导开源/仓库推理模型

推荐理由：做 LLM Agent 开发的团队终于有了一个系统化的技能进化方法，不用再靠试错和启发式反思——Bayesian-Agent 用后验概率指导优化，效果显著且可审计，建议直接看论文和代码。

原文

6月8日

11:17

arXiv cs.AI@Cong Chen, Guo Gan, Kaixiang Ji, ChaoYang Zhang, Zhen Yang, Guangming Yao, Hao Chen, Jingdong Chen, Yi Yuan, Chunhua Shen

MemDreamer 是一种新型框架，通过解耦感知与推理，将长视频理解转化为智能体探索过程。它采用分层图记忆架构，将视频流增量构建为三层语义抽象，并利用智能体工具增强检索机制，在推理时通过观察-推理-行动循环导航节点和逻辑边。实验表明，MemDreamer 在四个主流基准测试中达到最先进水平，与人类专家的差距缩小至仅 3.7 分。它仅使用全上下文 2% 的推理窗口，却带来 12.5 分的绝对准确率提升。此外，统计发现视觉语言模型在逻辑推理与长视频理解性能间存在强正线性相关，表明智能体能力扩展是多模态理解的新范式。

论文长视频理解智能体检索分层图记忆视觉语言模型推理模型

推荐理由：长视频理解一直受限于 token 爆炸和注意力稀释，MemDreamer 用智能体检索和分层记忆解决了这个痛点。做视频分析、多模态研究的团队可以直接参考其框架，在现有模型上即插即用，值得一试。

原文

11:03

arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov

ThinkBooster 是一个统一的测试时计算（TTC）扩展框架，旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试，以及兼容OpenAI的代理服务，支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡，并展示了实际增益。代码以MIT许可证开源。

论文推理模型测试时计算扩展开源/仓库性能评估编程助手

推荐理由：做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益，不用再自己拼凑评估流程，建议直接试。

原文

09:23

arXiv cs.AI@Yuxiang Chen, Jun Wang

精选72°

一项新研究对DeepSeek-R1-0120模型与人类在AIME 2025数学竞赛30道题上的推理过程进行了全面比较，标注了10247个推理步骤。研究发现，DeepSeek-R1的推理存在“拓扑模仿”现象：它频繁进行浅层验证和局部循环，缺乏人类推理中紧凑的分析与演绎交替结构。然而，成功的推理轨迹显示出稳定的分支和回溯使用，而失败的轨迹则过度或不足使用探索性动作。反思只有在演绎推理中才有效，陷入分析循环的反思往往忽略全局逻辑错误。研究建议改进评估和训练，包括测量跨轨迹稳定性、惩罚“空转”轨迹、鼓励深层逻辑修正。

论文推理模型 DeepSeek-R1 数学推理认知科学评估方法

推荐理由：这篇论文戳穿了当前长链推理模型的表面繁荣——做AI推理研究的团队会发现，模型可能只是在模仿推理的“样子”而非真正进步，值得细读其提出的改进方向。

原文

6月5日

12:58

arXiv: DeepSeek@Arslan Bisharat, Brian Ortiz, Eric Spencer, Khushboo Bhadauria, TaiNing Wang, George K. Thiruvathukal, Konstantin Laufer, Mohammed Abuhamad

精选

TLA+是亚马逊、微软等公司用于工业验证的形式化语言，但将自然语言转化为正确的TLA+规范仍需专家经验。本文首次系统评估了30个LLM（含8个模型家族）在205个TLA+规范上的表现，使用SANY解析器和TLC模型检查器验证。结果显示，LLM最高语法正确率26.6%，但语义正确率仅8.6%，且成功案例全部来自渐进式提示。模型大小与质量无关，例如DeepSeek r1:8b在所有策略上优于其70B版本，表明推理对齐对形式语言更重要。代码专用模型因主流语言训练的负迁移而表现更差。研究识别了五种幻觉类别，均与训练数据偏差有关。

论文 TLA+形式化验证 LLM评估推理模型幻觉分析

推荐理由：形式化验证团队终于有了LLM能力的基准数据——当前模型无法可靠生成TLA+规范，但渐进式提示和推理对齐是突破口，做形式化方法或分布式系统验证的开发者值得关注。

原文

12:57

arXiv: DeepSeek@Jinu Lee, Shivam Agarwal, Amruta Parulekar, Siddarth Madala, Dilek Hakkani-Tur, Julia Hockenmaier

精选72°

大型推理模型（LRM）产生的推理轨迹具有非线性结构（如回溯和自我修正），增加了评估和监控的难度。ReasoningFlow 框架将这些轨迹转化为细粒度的有向无环图（DAG），通过人工标注31条轨迹（2100步）验证了标注方案，并自动标注了1260条轨迹（247,700步），涵盖数学、科学和论证三个任务及五种模型。分析发现：不同LRM的推理结构相似；错误步骤大多不用于推导最终答案；机制性因果依赖与语言层面的话语结构不一致。该框架提升了推理过程的可监控性，数据集和代码已开源。

论文推理模型话语结构可解释性开源/仓库有向无环图

推荐理由：ReasoningFlow 解决了LRM推理轨迹难以评估和监控的痛点，做模型可解释性、推理质量分析的团队可以直接用开源工具和数据集来深入分析模型行为。

原文

12:42

arXiv: DeepSeek@Natalia Tarasova, Enrique Balp-Straffon, Aleksei Iancheruk, Yevhenii Sielskyi, Nikita Kozodoi, Liam H. Byrne, Jack Butler, Dayuan Jiang, Marcin Czelej, Andrew Ang, Yash Shah, Roi Blanco, Sergei Ivanov

精选

SWE-InfraBench 是一个新基准，用于评估大语言模型在云基础设施即代码（IaC）任务上的表现。与现有基准不同，它聚焦于 AWS CDK 的增量代码修改，而非从头生成整个代码库。数据集来自数十个真实 IaC 代码库，要求模型根据自然语言指令修改现有代码，并通过测试用例验证。评估结果显示，当前最强模型 Sonnet 3.7 的成功率仅为 34%，而推理模型 DeepSeek R1 只有 24%，表明 LLM 在云基础设施代码领域仍有显著局限。该数据集已在 Kaggle 上公开。

论文基准测试云基础设施 IaC AWS CDK 推理模型

推荐理由：云基础设施开发者终于有了一个贴近真实工作流的评估基准——SWE-InfraBench 测试的是增量修改而非从头写代码，做 IaC 或 DevOps 的团队值得关注，看看当前模型在 AWS CDK 上的真实表现。

原文

12:12

arXiv cs.AI@Mykyta Ielanskyi, Kajetan Schweighofer, Lukas Aichberger, Sepp Hochreiter

精选

当前推理语言模型通过强化学习微调时，常使用GRPO算法，但该算法面临延迟奖励问题——只能在完整思维链后给出奖励，导致高方差。RREDCoT提出一种无需额外生成的奖励再分配方法，利用模型自身对思维链中的关键片段进行信用分配，从而降低训练方差。实验表明，该方法在计算开销和效果上优于蒙特卡洛采样及其他归因方法。这项研究为提升推理模型训练效率提供了新思路，尤其适合长上下文场景。

论文推理模型强化学习奖励再分配思维链信用分配

推荐理由：做推理模型RL微调的团队终于有了降低训练方差的实际方案——RREDCoT用模型自身做信用分配，省去额外生成成本，长上下文场景下效果显著，值得关注。

原文

6月4日

11:01

arXiv cs.AI@Rishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad

72°

当前主流的强化学习从可验证奖励（RLVR）方法仅使用最终答案正确与否的单一比特信号，忽略了执行轨迹、工具输出、专家修正和模型自评估等丰富反馈。研究者提出DistIL方法，基于分布化DAgger算法，通过前向交叉熵目标利用这些反馈，实现序列级别的信用分配。理论证明该方法能保证单调策略改进和遗憾界，而基于反向KL或JS散度的自蒸馏目标则无法保证。实验表明，DistIL在科学推理、编程和数学问题求解等多个领域优于RLVR和自蒸馏基线。

论文强化学习 DAgger 丰富反馈推理模型信用分配

推荐理由：DistIL解决了RLVR只利用最终答案信号的局限，让模型能从执行过程和专家反馈中学习，做推理模型和编程助手的团队值得关注这一新范式。

原文

10:58

arXiv cs.AI@Nizar Islah, Istabrak Abbes, Irina Rish, Sarath Chandar, Eilif B. Muller

该论文提出，大语言模型在推理任务中失败时，常见的做法是增加采样次数重试，但忽略了失败轨迹本身蕴含的宝贵信息。作者发现，失败可分为“运气不好”和“结构性问题”两类，前者可通过更多采样解决，后者则无法通过重试修复。他们从失败轨迹的分布特征中提取了三个问题级特征，这些特征不依赖轨迹文本，而是基于可用的测试时干预结构。这些特征能以84.3%的准确率聚类失败模式，并支持一种无需训练的路径选择规则，在Steerable-Hard子集上将修复成功率提升12.2%。该方法无需访问训练过程或模型权重，即可用于测试时路由和后训练分析。

论文推理模型失败分析测试时扩展可修复性路径选择

推荐理由：这篇论文为AI推理失败提供了诊断工具，做模型调试和推理优化的团队可以直接用这三个特征来区分可修复与不可修复的失败，无需额外训练或权重访问，值得关注。

原文

6月3日

10:47

arXiv cs.AI@Areeb Gani, Asal Meskin, Gabrielle Kaili-May Liu, Arman Cohan

精选

该研究提出一个系统框架，用于量化大型推理模型（LRM）在输出长链思维时，其内在置信度与语言表达置信度之间的对齐程度（即忠实校准FC）。研究发现，LRM的推理行为并不会自动提升FC，且针对非推理模型的提示干预在推理场景中无效。不同置信度估计器对同一推理轨迹给出分歧评估，暴露了现有评估方法的脆弱性。这项工作将FC确立为LRM在高风险部署场景下的关键可靠性与对齐目标。

论文推理模型置信度校准模型对齐可靠性评估方法

推荐理由：LRM的推理链常被用户视为深思熟虑的证据，但这项研究戳破了这个幻觉——推理行为并不等于置信度表达更可靠。做模型对齐或安全评估的团队值得关注，尤其是那些在医疗、金融等高风险场景部署LRM的开发者，看完会重新审视你的置信度校准策略。

原文

10:47

arXiv cs.AI@Rongzhi Zhang, Rui Feng, Zhihan Zhang, Jingfeng Yang, Qingyu Yin, Xin Liu, Zixuan Zhang, Priyanka Nigam, Bing Yin, Tuo Zhao, Chao Zhang

精选

现有基于评分标准的强化学习（RL）方法将查询分布视为固定，导致开放查询产生模糊评分标准，而狭窄查询又引入无法验证的参考，使训练失去奖励信号。QUBRIC框架通过教师提取关键点将开放查询重写为可评估的场景问题，并利用对比评分生成和可学习性过滤，保留信息丰富的查询-评分对用于GRPO训练。在ArenaHard上，QUBRIC相比SFT基线提升5.5分，且仅用指令跟随数据训练后，在三个未见基准（法律、道德、叙事推理）上平均提升6.3分。这表明联合设计查询与评分标准可使基于评分标准的RL成为严格可验证任务之外的有效补充。

论文强化学习评分标准查询设计 GRPO 推理模型

推荐理由：QUBRIC解决了RL在非可验证任务中的核心瓶颈——查询与评分标准不匹配，做RL训练或AI对齐的团队可以直接参考其方法，提升模型在开放推理任务上的表现。

原文

10:38

arXiv cs.LG@Ting-Yun Chang, Harvey Yiyun Fu, Deqing Fu, Chenghao Yang, Jesse Thomason, Robin Jia

精选

推理模型通过长思维链提升准确性，但长输出导致内存和计算瓶颈。现有KV缓存淘汰方法在压缩缓存时会丢失关键信息，导致模型陷入重复推理循环。研究发现，少量值状态具有异常大的幅度，淘汰它们会引发灾难性失败；引入随机性可提高缓存多样性。基于此，研究者提出VaSE方法，无需训练即可保护大幅度值状态并促进多样化淘汰决策。在6个推理任务上，Qwen3模型使用VaSE实现4倍KV缓存压缩，准确率超过最强淘汰方法4%以上，弥合了效率与准确性之间的差距。

论文 KV缓存推理模型内存优化随机淘汰 Qwen3

推荐理由：推理模型的长输出让内存和计算成本飙升，VaSE用随机淘汰策略在4倍压缩下保持高准确率，做推理模型优化的开发者可以直接参考论文实现。

原文

10:32

arXiv: DeepSeek@Ziyan Liu, Xueda Shen, Yuzhe Gu, Songyang Gao, Kuikun Liu, Guangran Cheng, Chengqi Lyu, Dahua Lin, Wenwei Zhang, Kai Chen

72°

大型推理模型（LRM）在链式思维（CoT）上通过可验证奖励强化学习（RLVR）取得了显著进展，但长CoT中固有的试错和冗余探索被强化，导致过度思考问题。现有方法主要偏向较短轨迹，但学习信号仍基于结果，无法减少长CoT中的冗余记忆。为此，研究者提出ThoughtFold框架，通过细粒度偏好学习来缓解冗余探索，实现高效推理。它采用内省策略识别正确轨迹中的冗余，生成候选子轨迹谱，并引入掩码偏好优化目标，显式惩罚冗余探索，鼓励模型直接连接关键推理段，从而折叠推理链。实验表明，ThoughtFold将DeepSeek-R1-Distill-Qwen-7B的token使用量减少约56%，同时保持最先进的准确性。

论文推理模型链式思维偏好学习效率优化 DeepSeek-R1

推荐理由：ThoughtFold解决了LRM过度思考的痛点，做推理模型优化的团队可以直接参考其内省偏好学习方法，能大幅降低计算成本而不牺牲精度。

原文

10:27

arXiv cs.AI@Yu Xia, Zhouhang Xie, Xin Xu, Byungkyu Kang, Prarit Lamba, Xiang Gao, Julian McAuley

精选72°

ACTS提出了一种新方法，通过智能体控制器自适应地引导冻结的推理模型，在推理过程中动态调整思考策略和预算，从而在保持生成连续性的同时大幅节省token。该方法将推理引导建模为马尔可夫决策过程，控制器根据推理轨迹和剩余预算发出策略动作。实验表明，ACTS在全思考性能下实现了显著的token节省，并支持不同推理器和任务间的可控精度-效率权衡。代码已开源。

论文推理模型 token节省智能体可控推理开源/仓库

推荐理由：ACTS解决了LLM推理中token浪费和缺乏控制的问题，做推理优化或部署大模型的开发者可以直接用开源代码尝试，实现更经济的推理。

原文

10:15

arXiv cs.AI@Mubarak Adetunji Ojewale

精选

解耦式LLM推理中，KV缓存需在解码前穿越数据中心网络，导致传输时间直接计入首令牌延迟（TTFT）。现有调度器仅考虑计算负载和前缀缓存局部性，忽略了预填充与解码实例间的拓扑距离和动态拥塞。NetKV通过引入网络成本预言机，证明了忽略网络项会导致缓存感知调度在上下文长度增长时性能任意次优。在64 GPU四层胖树模拟器上，NetKV将平均TTFT降低21.2%，SLO达标率提升20.1个百分点，且每令牌时间开销低于0.5毫秒。该方法无需修改传输层、推理引擎或硬件。

论文推理模型 KV缓存网络感知调度解耦推理 TTFT优化

推荐理由：做大规模LLM推理部署的团队，NetKV直接解决了TTFT瓶颈——网络延迟被正式纳入调度决策，实测效果显著且零侵入，值得在现有集群上评估。

原文

6月2日

12:04

arXiv cs.AI@Deokhyung Kang, Hyounghun Kim, Gary Geunbae Lee

推理语言模型在复杂推理任务上表现优异，但在非英语输入上仍存在多语言推理差距，主要原因是语言理解失败。英语翻译可以缓解这一问题，但并非所有输入都需要翻译。为此，研究者提出 Luar（语言理解边界感知强化学习框架），训练模型在直接理解不可靠时选择性调用翻译。在多项多语言推理基准测试中，Luar 优于标准 GRPO 等方法，尤其在低资源语言上提升显著。该框架能避免不必要的翻译，并泛化到未见过的低资源语言。项目代码已开源。

论文推理模型多语言强化学习翻译开源/仓库

推荐理由：多语言推理场景下，翻译不是越多越好——Luar 教会模型在「不懂的时候才翻」，做多语言 NLP 或低资源语言应用的团队可以直接用这个框架来提升推理效率。

原文

11:17

arXiv cs.LG@Ting Xu, Xu He, Yupu Lu, Jiankai Sun, Dong Li, Wai Lam, Jianye Hao

精选72°

这篇论文研究了链式推理（CoT）过程中的熵变化，发现了一个一致的两阶段结构：先是不确定性探索阶段，然后突然过渡到置信收敛阶段。置信阶段具有高可靠性和高冗余性两个关键特性，模型在得出正确答案后仍会生成大量无用token。基于此，作者提出了两种更高效的推理策略：早退机制（Early Exit）和测试时缩放（Test-Time Scaling）。他们使用累积和（CUSUM）算法进行实时推理控制，无需额外训练。实验表明，CUSUM早退在准确率63.06%时实现了11.1%的token缩减，优于DEER和Dynasor。

论文推理模型 CoT/链式推理早退机制熵动力学 CUSUM

推荐理由：这篇论文揭示了CoT推理中隐藏的熵动力学规律，做推理加速和模型效率优化的研究者可以直接用CUSUM方法实现无训练早退，比现有方法更优。

原文

11:10

arXiv cs.AI@Ekaterina Alimaskina, Darya Rudas, Denis Shveykin, Gleb Molodtsov, Pavel Vasiliev, Aleksandr Beznosikov

精选72°

该研究揭示了大型推理模型在极端低比特（2-bit）量化推理时，并非单纯降低答案准确率，而是产生更长的推理轨迹，包括重复循环、预算耗尽、延迟决策和未闭合推理段，导致端到端速度不升反降。作者针对 Qwen3-8B 和 Qwen3-32B 模型，提出了两种轻量级控制方法：FP16 规划（为 2-bit 模型提供短的高精度大纲）和循环救援（检测重复轨迹并回退或提前提交答案）。在 MATH-500 上，循环救援将 Qwen3-8B 准确率从 17.2% 提升至 74.2%，规划加循环救援将 Qwen3-32B 从 65.0% 提升至 87.2%。研究表明，将低比特推理失败视为可控生成病理，通过轻量检测和选择性 FP16 支持，2-bit 推理可以恢复准确率并保持真实端到端加速。代码已开源。

论文推理模型量化/低比特 Qwen3 失败模式开源/仓库

推荐理由：做推理模型量化和部署的团队终于有了针对 2-bit 失败模式的系统解法——不是简单降精度，而是用 FP16 规划和循环救援来修复生成过程，Qwen3 用户可以直接复现并提升准确率。

原文

11:08

arXiv cs.AI@Xiang Li, Jiwei Wei, Ke Liu, Yitong Qin, Jinyu Guo, Malu Zhang, Peng Wang, Yang Yang

eMoT 提出了一种名为“演化思维记忆”的新框架，将推理轨迹视为动态演化的记忆而非静态模板，以解决大模型在多步推理中的幻觉和数值计算问题。该框架包含三个核心模块：记忆腐蚀机制（强化高效用推理结构并衰减低频结构）、符号锚定引擎（利用 Python 进行确定性计算，类似人类使用计算器）以及一致性驱动精炼过程（对齐神经推理与符号结果，减少逻辑偏差）。在 Game of 24 任务上，eMoT 达到 100% 准确率，比基线提升 17.6%；在 GSM8K、ASDiv、SVAMP 和 MGSM 等数学推理基准上也有持续改进。即使使用轻量级模型，eMoT 也优于依赖大规模模型的方法，表明性能提升主要来自框架的推理控制而非模型规模。

论文推理模型记忆机制符号锚定数学推理大模型

推荐理由：eMoT 解决了大模型在多步推理中容易出错和产生幻觉的痛点，做推理增强或数学推理的开发者可以直接参考其记忆腐蚀和符号锚定机制，值得一试。

原文

6月1日

10:45

arXiv cs.AI@Liwei Kang, Yee Whye Teh, Wee Sun Lee

精选

该论文研究了大型语言模型（LLM）在推理过程中如何利用搜索历史。作者发现，LLM通常将搜索树线性化为中间轨迹，但仅凭隐式表示的历史不足以超越传统启发式搜索。通过引入显式的父指针（LinTree结构），模型能更清晰地回溯和切换分支，从而在Blocks World、网格导航和Sokoban等任务中显著提升性能和搜索效率。这表明，显式化搜索树的树结构能更好地发挥历史信息的优势，为LLM推理提供更结构化的表示方法。

论文推理模型搜索树 LLM推理结构化表示启发式搜索

推荐理由：如果你在做LLM推理或搜索增强的AI系统，这篇论文指出了隐式搜索历史的瓶颈，并提供了一个简单有效的改进方向——显式父指针。做推理模型或规划算法的开发者值得一看。

原文

5月29日

11:08

arXiv cs.AI@Chen Henry Wu, Aditi Raghunathan

精选83°

论文提出自训练验证（STV）方法，解决推理模型在测试时验证-精炼循环和训练时自训练中验证器失效的瓶颈。核心发现是模型单独无法捕捉自身错误，但看到参考答案后可以，利用这一不对称性训练验证器模仿更知情版本。STV在困难数学题上准确率翻倍，科学推理任务从1.5%提升至21%。结合验证器在循环中的强化学习（ViL），使pass@1再提升33%，且生成器独立推理能力也超越标准RL收敛点。这表明推理模型的下一个前沿在于如何训练验证及利用验证。

论文推理模型自训练验证测试时改进强化学习验证器

推荐理由：推理模型开发者长期受困于验证器失效导致自改进停滞，STV用参考答案不对称性巧妙破解，在困难数学和科学任务上效果显著，做自训练或测试时搜索的团队值得深入看。

原文

11:06

arXiv cs.AI@Felix Zhou, Anay Mehrotra, Quanquan C. Liu

精选72°

前沿推理模型通常通过强化学习后训练得到。近期研究挑战了这一范式，表明从基础模型的幂分布中采样即可获得可比推理能力，无需额外训练。但高效采样是关键挑战。本文提出 Entropy-Cut Metropolis-Hastings 算法，利用模型下一 token 的熵作为代理，识别推理轨迹中的关键决策点（如证明策略或算法选择），并仅从这些位置重新采样，而非均匀随机截断。理论证明该方法混合时间与决策点数量成正比，而非 token 数量。在 MATH500、HumanEval、GPQA Diamond 和 AIME26 基准上，该方法一致优于基线及强化学习训练模型。

论文推理模型采样方法熵决策点 Metropolis-Hastings

推荐理由：这项研究为无需 RL 训练即可提升模型推理能力提供了实用采样方法，做推理模型优化或采样策略的开发者可以直接尝试 Entropy-Cut MH，它比均匀截断更高效。

原文

11:05

arXiv cs.AI@Lukas Aichberger, Sepp Hochreiter

精选

论文提出 Reasoning in Memory (RiM) 方法，用固定内存块替代自回归生成推理步骤，让大模型在单次前向传播中完成潜在推理。该方法受人类工作记忆启发，通过两阶段课程训练：先预测显式推理步骤来锚定内存块，再丢弃步骤级监督直接优化最终答案。实验表明，RiM 在多个推理基准上匹配或超越现有潜在推理方法，且计算效率更高。这为提升大模型推理能力提供了新思路，尤其适合需要高效推理的场景。

论文推理模型潜在推理工作记忆计算效率 RiM

推荐理由：RiM 解决了自回归推理计算效率低的问题，做模型推理优化的研究者可以直接参考其两阶段训练方法。

原文

5月28日

11:30

arXiv cs.AI@Linas Nasvytis, Simon Jerome Han, Ben Prystawski, Satchel Grant, Noah D. Goodman, Judith E. Fan

精选72°

论文提出一种名为对比反思（CORE）的非参数学习算法，通过对比成功与失败的推理轨迹，生成简短的自然语言洞察（如策略和约束），从而快速提升模型推理能力。实验表明，CORE在四个推理任务上比参数方法（如GRPO）和非参数方法（如GEPA、情景RAG）收敛更快，仅需5个训练样本即可达到可比或更优的性能。该方法还显著节省上下文token，将学到的知识压缩为可解释的洞察，而非直接存储轨迹。研究指出，将推理成败对比蒸馏为抽象洞察，是比权重更新或提示优化更高效、更可解释的模型自我改进路径。

论文推理模型对比学习非参数方法模型自我改进 CORE

推荐理由：CORE用极少的样本和推理次数就能让模型快速变聪明，做推理优化或小样本学习的团队值得关注，尤其适合资源受限场景。

原文

11:27

arXiv cs.AI@Jiazhen Huang, Xiao Chen, Xiao Luo, Yong Dai, Senkang Hu, Yuzhi Zhao

精选

本文提出 Skill-Conditioned Gated Self-Distillation (SGSD) 方法，用于改进大语言模型的推理能力。传统自蒸馏方法依赖可信的先验信息（如参考答案），而 SGSD 从经验技能库中检索技能-错误对，构建多教师池，通过验证器判断教师极性，并设计门控目标函数来蒸馏有效信息。在多个数学推理基准上，SGSD 在 Qwen3-1.7B 上平均比 GRPO 提升 6.2%，比 OPSD 提升 1.7%，且对先验信息的假设更弱。代码已开源。

论文推理模型自蒸馏数学推理技能库 LLM

推荐理由：做 LLM 推理优化的研究者可以关注——SGSD 用技能库替代参考答案作为先验，降低了蒸馏对标注数据的依赖，数学推理场景效果显著，值得在自蒸馏框架中尝试。

原文

5月27日

12:15

arXiv: DeepSeek@Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

精选72°

论文推理模型安全/对齐思维链激活引导 DeepSeek-R1

推荐理由：这项研究揭示了 CoT 在模型安全中的双重角色——既增强鲁棒性又引入新风险，做 AI 安全和对齐的团队值得关注，尤其是使用推理模型的开发者需要重新评估防御策略。

原文

10:51

arXiv cs.LG@Shijin Gong, Erhan Xu, Kai Ye, Francesco Quinzan, Giulia Livieri, Chengchun Shi

精选

BASIS 是一种无需评论家的后训练算法，通过单次采样每个提示的轨迹，并利用整个批次中跨提示的信息共享来改进价值函数估计。实验表明，与单次采样的 REINFORCE++ 基线相比，BASIS 将价值函数估计的均方误差降低了 69%，且单次采样的 MSE 低于 8 次采样的组均值估计器。这种改进带来了更好的策略优化：BASIS 用更少的训练时间达到了接近多采样 GRPO 型基线的性能，并常优于单采样 REINFORCE 型基线。该工作解决了强化学习在计算效率与样本效率之间的权衡问题。

论文强化学习推理模型 LLM训练价值函数估计 BASIS

推荐理由：做LLM推理强化学习的团队终于有了一个兼顾计算和样本效率的方案——BASIS用单次采样就达到多采样的效果，训练成本大幅降低，建议做RLHF或推理优化的开发者点开看看。

原文

5月26日

12:38

arXiv: DeepSeek@Andreas Opedal, Francesco Ignazio Re, Abulhair Saparov, Mrinmaya Sachan, Bernhard Schölkopf, Ryan Cotterell

精选

研究者将自然语言推理建模为搜索问题，利用 A* 搜索算法指导 LLM 生成正确且高效的推理步骤。通过监督微调（基于 A* 执行轨迹）和强化学习（结合 A* 过程奖励模型），Llama-3.2 1B-3B 模型从近乎零准确率提升至超越 DeepSeek-V3.2。研究发现，简单正确性奖励最大化准确率，而 A* 信号能平衡准确率与效率。在更大搜索空间下，基于不完美启发式的训练反而带来更优准确率。这项工作展示了经典搜索算法指导 LLM 推理的潜力。

论文推理模型 A* 搜索后训练强化学习 Llama-3.2

推荐理由：A* 搜索让小模型推理能力大幅跃升，做推理优化或小模型部署的团队值得关注，可以直接参考其训练方法。

原文