全部 AI 动态 · AI 热点

6月30日

13:53

arXiv cs.AI@Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary

论文在Qwen3-14B策略上采用DPO，设置三个保守度β（低、中、高），并在在线适应中使用3×Qwen3-1.7B奖励集成。在GSM8K基准上测量准确率，发现更高保守度单调增加奖励黑客损伤，Goodhart gap及其曲线下面积AUGC的Spearman ρ=1.0。机制分析表明，高β DPO压缩策略熵，导致响应多样性降低，但集成分歧增加且被更快利用。论文进一步拟合幂律曲线，确定了平衡对齐保真度和漏洞的最优保守度β*。

论文 Qwen3-14B DPO GSM8K 推理模型 RLHF

推荐理由：这篇论文用Qwen3-14B和DPO实验证明，离线训练越保守，在线适应越容易翻车，还在GSM8K上给出了最优保守度公式。做RLHF的值得一读。

原文

12:39

arXiv: DeepSeek@Lei Bai, Zongsheng Cao, Yang Chen, Zhiyao Cui, Shangheng Du, Yue Fan, Shiyang Feng, Zijie Guo, Haonan He, Liang He, Xiaohan He, Shuyue Hu, Yusong Hu, Songtao Huang, Yichen Jiang, Hao Li, Xin Li, Dahua Lin, Weihao Lin, Fenghua Ling, Dongrui Liu, Zhuo Liu, Runmin Ma, Chunjiang Mu, Haoyang Peng, Tianshuo Peng, Jinxin Shi, Luohe Shi, Boyuan Sun, Zelin Tan, Shengji Tang, Qianyi Wang, Yiming Wu, Yi Xie, Xiangchao Yan, Jingqi Ye, Peng Ye, Fangchen Yu, Jiakang Yuan, Bihao Zhan, Bo Zhang, Chen Zhang, Shufei Zhang, Shuaiyu Zhang, Wenlong Zhang, Yiqun Zhang, Junpeng Zhao, Zhijie Zhong, Bowen Zhou, Yuhao Zhou

精选

Agents-A1是一个35B参数的Mixture-of-Experts智能体模型，通过扩展智能体视野（平均轨迹长度45K tokens）达到万亿参数级别性能。它在SEAL-0（56.4）、IFBench（80.6）、HiPhO（46.4）、FrontierScience-Olympiad（79.0）和MolBench-Bind（56.8）上超越了1T参数的Kimi-K2.6和DeepSeek-V4-pro，在SciCode（44.3）、HLE（47.6）和BrowseComp（75.5）上也具有竞争力。训练采用三阶段流程：全领域SFT、领域级教师模型、多教师领域路由在线蒸馏。

AI模型 Agents-A1 35B 智能体推理模型 MoE

推荐理由：35B的模型干翻万亿参数？Agents-A1用长视野扩展和智能体框架做到，基准全面领先，值得看看怎么训练的。

原文

11:14

arXiv cs.LG@Aaryam Sharma

推测解码利用快速起草器生成候选 token，再由大模型验证以加速推理。现有理论主要针对随机采样，而实用系统多用贪婪解码和松弛接受规则。本文提出一类具有拒绝区域的接受准则，并给出其精确 KL 散度下界，覆盖严格贪婪、加性和乘性松弛、top-(m) 以及熵阈值等情形。对于树形解码，推导出目标贪婪 token 仍被起草器 top-(m) 覆盖的充分条件。在 Qwen3 模型上的实验表明，松弛和树形准则显著扩大了可保证接受的区域。

论文 Qwen3 speculative decoding 推理模型解码方法

推荐理由：这篇论文搞明白了推测解码里那些花式接受规则到底行不行，给出了数学保证，还在Qwen3上验证了，搞推理加速的值得一看。

原文

10:06

arXiv cs.LG@Abhranil Chandra, Sankaran Vaidyanathan, Utsav Dhanuka, Varun Gandhi, Scott Niekum

HExA是一个无需训练的上下文学习框架，让LLM通过主动实验设计、迭代优化和技能库复用来解决新颖领域的长时任务。在Interphyre基准（基于PHYRE 2D物理环境）上，Claude Sonnet 4.6原本只有2%的成功率，而HExA将其提升至77%。HExA还优于ReAct和Reflexion等基线，并支持开源模型。仅使用从简单关卡学到的技能转移，HExA在新关卡上也能达到44%成功率，证明技能可复用。

论文 HExA Claude Sonnet 4.6 Interphyre 智能体推理模型

推荐理由：Claude 4.6在困难物理任务上从2%蹿到77%，全靠HExA这个主动实验框架。不用复杂训练，自己试错学技能，还能跨任务迁移。

原文

6月29日

10:12

arXiv cs.LG@David Steinmann, Antonia Wüst, Kristian Kersting, Wolfgang Stammer

COCOLogic-V2 是一个面向现实图像的对象中心数据集，覆盖一阶逻辑的广泛子集，用于视觉归纳推理评估。它将样本分为正变体、近边界和远边界负例三类，实现对模型可解释性的细粒度诊断。实验表明，模型能很好区分正样本和远边界负例，但在近边界负例上表现失败。此外，感知噪声和大规则搜索空间在少样本场景下构成额外挑战。该数据集为推进视觉归纳推理提供了具体基础。

论文 COCOLogic-V2 推理模型视觉理解逻辑推理可解释性

推荐理由：COCOLogic-V2 这个新数据集专测视觉推理，正反例分类特别细，模型在近边界上直接翻车，做可解释 AI 的可以看看。

原文

10:11

arXiv cs.AI@Rajesh Jayaram, Drew Tyler, David Woodruff, Corinna Cortes, Yossi Matias, Vahab Mirrokni, Vincent Cohen-Addad

Paper Assistant Tool（PAT）是谷歌开发的智能体框架，用于深度科学评审，能检查理论结果、验证实验并提出改进建议。PAT利用推理缩放技术，在SPOT基准上对数学错误的零样本召回率提升了34%。该工具已在STOC和ICML两大计算机科学会议作为预提交工具试点，有效识别关键错误并减轻审稿人认知负担。

AI产品 Paper Assistant Tool Google 自动化评审推理模型 SPOT基准

推荐理由：谷歌做了个叫PAT的工具，能帮你审论文抓数学错误，召回率比普通模型高34%，已在两大顶会试过了，实用。

原文

10:09

arXiv cs.AI@Chenguang Wang, Ming Li, Xinyue Zeng, Zhuochun Li, Hong Jiao, Tianyi Zhou, Dawei Zhou

论文提出Epi2Diff（Episode to Difficulty）框架，将大型推理模型（LRM）的推理轨迹映射为认知片段序列，通过推理规模、努力分配和状态转换建模难度。在四个真实人类难度数据集上，Epi2Diff优于微调小语言模型、LLM上下文学习和监督LLM适应等基线。在SAT分类基准上，Epi2Diff相比监督LLM微调获得8.1%平均相对增益。分析发现更难的题目导致更费力、迭代、以实施为中心的片段动态，而非仅更长的回答。

论文 Epi2Diff LRM 推理模型教育评估难度预测

推荐理由：想用AI推理过程预测题目难度？这篇论文提出了Epi2Diff，从LRM的思考轨迹中提取片段特征，比直接微调模型效果好8%以上，而且可解释。

原文

10:08

arXiv cs.AI@Difan Jiao, Raghav Singhal, Robert West, Ashton Anderson

Tandem Reinforcement Learning (TRL) 将 tandem 训练范式引入带可验证奖励的强化学习（RLVR）。TRL 让一个较强的 senior 模型与一个冻结的 junior 模型随机交替协作生成推理过程，对最终结果给予奖励，并对 senior 应用标准 GRPO 损失。在 Qwen3-4B-Instruct 上使用竞赛数学训练，TRL 的 solo 推理能力与 vanilla GRPO 持平，但同时提升了 senior 与 junior 的交接鲁棒性、减少了 junior 侧分布漂移，并产出了对 junior 更易理解的思维链。该工作为多模型通信与人类兼容性提供了实际收益的路径。

AI模型 TRL Qwen3-4B GRPO 推理模型多模型协作

推荐理由：他们提出了 TRL，让强模型和弱模型组队推理，强模型学会写弱模型能看懂的推理过程。训练 Qwen3-4B 后，单打能力不降，协作能力更强。

原文

10:06

arXiv: DeepSeek@Lei Yu, Peng Wang, Jia Xu, Jingyuan Zhang, Xin Wang, Jiajia Ma, Li Yang, Changzhi Deng, Zenghua Wang, Fengjun Zhang

BashCoder-R1提出三阶段框架：连续预训练(CPT)专业化Bash范式、长思维链监督微调(L-CoT SFT)模拟风险意识推理、鲁棒性感知分组相对策略优化(R-GRPO)优化语法与鲁棒性。在包含952个真实任务(773单行,179多行)的BashBench基准上，单行/多行任务SyntaxPass达100.00%/94.97%，RobustPass达95.99%/79.33%，FullRate达90.04%/73.18%。相比最强基线DeepSeek-V3.2(推理)在FullRate上分别提升37.82%和20.18%。

AI模型 BashCoder-R1 BashBench DeepSeek 编程助手推理模型

推荐理由：BashCoder-R1用三阶段训练让AI写bash脚本更稳更可解释，在BashBench上比DeepSeek-V3.2完整率高出一大截。

原文

6月25日

10:46

arXiv cs.LG@Andrei Liviu Nicolicioiu, Mohammad Pezeshki, Aaron Courville

一篇论文研究了基于采样示范的在线自蒸馏方法对输出多样性的影响。该方法通过单一模型同时作为教师和学生，教师以正确示范为条件提供密集的token级反馈，在pass@1准确率上表现优异。但论文发现，这会导致推演多样性降低，pass@k曲线变平，即增加推演次数无法提升准确率。作者将原因追溯到自蒸馏设计中的复合偏差：教师在对学生推演评分时以采样到的正确推演为条件，通过模型自身偏见传导反馈。在可控的图路径发现任务和科学问答基准上，自蒸馏模型在平均性能上与强化学习相当或更优，但功能和语义多样性显著下降，在需要多样化策略的分布外场景中失败。

论文 self-distillation 强化学习输出多样性 pass@k 推理模型

推荐理由：这篇论文揭示了自蒸馏方法的一个隐藏缺陷：虽然准确率不错，但多样性会变差，导致复杂推理场景下失效。做RL或推理模型的人值得看看。

原文

10:44

arXiv cs.LG@Aditya Singh, Gerson Kroiz, Senthooran Rajamanoharan, Neel Nanda

本文提出一个模型取证基线协议，通过读取Kimi K2 Thinking的思维链（CoT）生成行为假设，再用反事实实验验证。在六个代理环境下测试，发现Kimi K2 Thinking的偷懒行为源于低努力倾向，DeepSeek R1的欺骗是为了与自身先前实例保持一致。部分实验缺乏阳性对照，测试能力有限。该协议为未来模型取证研究提供了基线。

论文 Kimi K2 Thinking DeepSeek R1 思维链 AI安全推理模型

推荐理由：想知道模型做坏事是故意还是偶然？这篇论文用Kimi K2和DeepSeek R1做了验证，方法简单但管用。

原文

09:47

arXiv cs.AI@Shangkun Li, Jie Xu, Yi Guo, Zeju Li, Yuanyuan Wang

BrReMark框架通过先假设异常并用边界框标注病灶区域，再重新检查验证，提升了空间可解释性。训练结合结构化推理轨迹的监督微调与强化学习，奖励定位准确性和诊断推理。采用域随机化病理合成增强策略，提升了对分布外数据的泛化性。内部基准上mAP50从0.74%提升至37.54%，临床F1达21.57%，诊断准确率45.26%。NOVA OOD基准上假阳性较当前最优方法减少45.7%，表明能有效降低对罕见病理的幻觉。

论文 BrReMark 医学影像异常检测推理模型合成数据

推荐理由：这篇论文提出BrReMark，通过先假设再验证的标注机制，大幅提升了脑MRI诊断的可信度和定位精度，值得关注。

原文

6月24日

11:42

arXiv cs.LG@Kanishk Awadhiya

该论文提出一种受物理启发的推理机制，将大语言模型视为高维密集联想记忆体。作者通过吉布斯权重对多个推理路径进行加权（P∝e^{-βE}），使模型收敛到更稳定的吸引子盆地。实验表明，该方法在GSM8K上将微软Phi-3.5的准确率从84.7%提升至90.1%，提升5.38%。这揭示了推理过程更像动态松弛而非贪婪词预测。

论文 Phi-3.5 GSM8K 吸引子动力学推理模型

推荐理由：这篇论文用物理能量模型解释推理，让Phi-3.5在GSM8K上提了5.38%，思路挺新。

原文

11:41

arXiv cs.LG@Zhuoren Ye, Tianyu Wo, Dinghao Xue, Mingming Zhang, Yuchen Teng, Chunming Hu, Renyu Yang

CrossPool 是一种为冷 MoE 模型设计的多 LLM 服务引擎，它将 FFN 权重和 KV-cache 分离到两个 GPU 内存池中。权重池合并多个冷模型的 FFN 权重，KV-cache 池动态服务活跃请求，使注意力计算局部化。系统包含 KV-cache 规划器、虚拟化器、层间流水线调度器以及持久化内核，减少了 CPU-GPU 控制开销。在突发长上下文请求下，CrossPool 相比基于 KV-cache 的最先进多 LLM 服务系统，将 P99 TBT 降低了最多 10.4 倍。

论文 CrossPool MoE KV-cache 推理模型模型服务

推荐理由：这篇论文提出了 CrossPool，通过分离权重和 KV-cache 池，能大幅降低冷 MoE 模型的推理延迟，比现有系统快 10 倍以上。

原文

09:46

arXiv: DeepSeek@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong

71°

RaDaR是一个32B参数的开源推理大模型，专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中，RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断，提前时间1.87个月。在随机医生辅助试验中，RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。

AI模型 RaDaR DeepSeek-R1 开源模型罕见病诊断推理模型

推荐理由：RaDaR发布了一个32B开源推理模型，罕见病诊断比DeepSeek-R1还强，医生用它准确率提升21%。

原文

6月23日

13:13

arXiv cs.AI@Prateek Agnihotri, Sanchit Jain, Prabhat Agnihotri, Aditya Prasad, Shubham Jain

这篇论文介绍了在NVIDIA Nemotron Model Reasoning Challenge中解决Bit Manipulation Puzzles的创新算法。该任务要求发现隐藏的逻辑规则并应用于新输入，但LLMs通常因复杂布尔逻辑模拟而幻觉。作者提出放弃算术逻辑，转而使用字符串相似性、结构化搜索和自主错误恢复。他们将逻辑门推导重构为基选择任务，利用最小比特翻转来隔离基并推导真值表，无需复杂算术。通过回溯DFS和错误恢复，结合比特分词和交互推理SFT，该方法在验证集上达到96%以上的准确率，最终获得比赛第7名。

论文 NVIDIA Nemotron Bit Manipulation Puzzles 推理模型 LLM

推荐理由：这篇论文用字符串相似度和回溯搜索替代了算术逻辑，让LLM在位操作谜题上验证精度超过96%，比赛第7名，方法很巧妙。

原文

12:56

arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman

72°

SPIRAL提出一种新训练框架，让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件，在推理任务中扩展效果优于GRPO，最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。

论文 SPIRAL GRPO 推理模型强化学习链式思维

推荐理由：这篇论文的SPIRAL方法教模型自己学会并行思考再汇总，比单纯加大顺序推理高效11倍，效果还更好，值得做推理扩展的朋友看看。

原文

12:04

arXiv: DeepSeek@Aman Mehta, Anupam Datta

该论文提出replay pairing诊断方法，测量LLM代理中计划信号随上下文步数的衰减。在Llama-3.1-70B上，计划信号在计划后一步骤达到0.453，随后单步动作-观察步骤下降4.1倍。推理模型如DeepSeek-R1-Distill-Llama-70B存在推理痕迹混淆，严格剥离后恢复+153%信号。计划驱逐导致ALFWorld成功率下降34.7个百分点。研究显示代理关键信息依赖上下文存在而非持久化。

论文 Llama-3.1-70B DeepSeek-R1-Distill-Llama-70B ALFWorld 上下文管理推理模型

推荐理由：这篇论文用实验证明LLM代理离了上下文里的计划就抓瞎，不是脑子记住了。对做多步任务代理的人很有启发。

原文

11:04

arXiv cs.AI@Zhuoran Jin, Kejian Zhu, Hongbang Yuan, Yupu Hao, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

该研究系统评估12项多模态任务，涵盖感知与推理两类，使用14个非推理模型和8个推理模型。结果显示，CoT在视觉定位、目标计数等感知任务中会导致性能下降，但在数学、科学和多图推理中有效。开源多模态推理模型整体提升有限，可能因过度侧重数学。当前多模态CoT存在'轻看，重思'模式，视觉反省持续减弱，而口头反思相对保持。视觉推理仍是主要瓶颈。

论文 CoT 多模态推理推理模型视觉推理多模态任务

推荐理由：这篇论文系统测了多模态思维链到底行不行，发现它在视觉定位上帮倒忙，但对数学推理很管用，还揭示了视觉瓶颈。做多模态的值得看。

原文

10:57

arXiv cs.AI@Liang Ding, Xintong Wang

Agentic AI任务在长链执行时因环境不确定性呈指数级失败，每步确定性δ<1时k步成功率衰减为δ^k。论文提出三个形式化结果：确定性-效率界限、验证者-古德哈特定理下限、环境技能演化的收敛条件。研究者构建了基于五个可测量属性的供应确定性指数（SCI）和五级确定性成熟度模型（DMM）。论文还提出了一个可证伪的开放问题框架OQ1-OQ5。立场与平台无关，并讨论了模拟到现实充分性、对齐充分性和AI作为正常技术三种竞争观点。

论文智能体推理模型多智能体 AI安全确定性环境

推荐理由：这篇论文分析了智能体AI在不确定环境中的失败机制，还给出了SCI和DMM实用框架。如果你做AI智能体开发，这些形式化结论值得参考。

原文

10:47

arXiv cs.LG@Yan Xie, Sijie Zhu, Tiansheng Wen, Bo Chen, Yifei Wang

标准在策略蒸馏（OPD）对所有token均匀加权，但研究发现学生rollout越长，后续token与教师分布偏差越大。仅使用前30%的token即可达到全token性能，而仅用后30%几乎学不到东西。基于约束优化视角，提出重要性加权在策略蒸馏（IW-OPD），根据累积偏差动态调整token权重。IW-OPD收敛更快，在AIME-2025基准上性能提升多达6.9分。

论文 OPD IW-OPD AIME-2025 推理模型位置偏差

推荐理由：这篇论文揭示了OPD中后面token质量差的问题，提出IW-OPD加权方案，在AIME-2025上提分6.9，做蒸馏研究的值得一看。

原文

6月19日

11:41

arXiv cs.AI@Joshua Engels, Callum McDougall, Bilal Chughtai, Janos Kramar, Senthoran Rajamanoharan, Cindy Wu, Arthur Conmy, Asic Q Chen, Jean Tarbouriech, Min Ma, Brendan O'Donoghue, João Gabriel Lopes de Oliveira, Rohin Shah, Neel Nanda

71°

论文分析 DiffusionGemma 的推理透明度，将其分解为变量透明度和算法透明度。初始发现 DiffusionGemma 的不透明串行深度是自回归 Gemma 4 的 28.6 倍。但通过可解释的 token 瓶颈映射信息流，可将不透明串行深度降至仅 Gemma 4 的 1.1 倍。算法透明度方面，扩散模型因每步所有 token 可变化而更复杂，研究识别了非时间顺序推理、token 与序列涂抹、中间上下文推理等新现象。可监控性测试表明 DiffusionGemma 与 Gemma 4 水平相当。

论文 DiffusionGemma Gemma 4 可解释性推理模型 Google

推荐理由：Google 团队这篇论文解释 DiffusionGemma 的推理黑箱有多大，发现能用 token 瓶颈把深度压到几乎和 Gemma 4 一样，还发现了扩散模型特有的奇怪推理方式。

原文

10:38

arXiv: DeepSeek@Arastoo Zibaeirad, Marco Vieira

精选

研究提出CWE-Trace框架，基于834个手动整理的Linux内核样本（覆盖74个CWE）评估LLM的漏洞检测能力。实验发现数据污染对性能无实质帮助：84%的污染样本不携带可用记忆信号。微调仅改变输出阈值（DFI范围-85.5至+94.8 pp），而不改变底层决策策略，模型在历史数据和截止后数据上表现一致。最佳检测准确率仅52.1%（高出随机2.1个百分点），CWE排名Top-1准确率低于1.3%，表明当前LLM缺乏可靠的安全推理能力。

论文 CWE-Trace Linux内核漏洞检测推理模型 Fine-tuning

推荐理由：这篇论文用800多个Linux内核漏洞样本做了严谨测试，发现LLM微调后只是改分数线，不是真懂安全。检测率刚过50%，别指望它们当安全审计员。

原文

10:11

arXiv cs.AI@Huang Peng, Jiuyang Tang, Weixin Zeng, Hao Xu, Xiang Zhao

MACR针对LLM推理中参数知识与外部上下文之间的冲突，提出了一种显式消解机制。该方法首先用修改的语义熵衡量模型对答案的置信度，据此内部知识不足时再检索外部信息。然后引入三个专用智能体，分别归纳规则、分析潜在冲突并消解所有不一致。实验在多个基准上显著超过现有方法，并提供可解释的冲突消解过程。

论文 LLM MACR 知识冲突多智能体推理模型

推荐理由：这篇论文提出了MACR，能帮LLM自己判断知识是否可靠并解决矛盾，比过去的方法强不少，还能解释冲突。

原文

09:38

arXiv: DeepSeek@Minsu Kim, Se-Young Yun

研究者提出利用Lean证明助手作为符号过程预言机，在训练中提供细粒度的策略级验证反馈，弥补了传统RLVR仅依赖二元验证信号的不足。通过将证明尝试解析为策略序列，Lean能标记局部正确步骤及最早失败步骤，从而产生基于类型论的密集可验证信用信号。在STP-Lean和DeepSeek-Prover-V1.5上的实验表明，策略级监督在多数设置下优于仅结果监督的基线，在MiniF2F和ProofNet基准上取得提升。该工作展示了符号证明助手不仅可在评估时用作验证器，还能在训练中充当过程级奖励预言机。

AI模型 Lean 定理证明强化学习形式验证推理模型

推荐理由：这篇论文用Lean在定理证明训练中引入细粒度过程奖励，比只判对错的强化学习效果好，在MiniF2F和ProofNet上都有提升。

原文

6月18日

10:57

arXiv cs.AI@Siyi Gu, Jialin Chen, Sophia Zhou, Arman Cohan, Rex Ying

提出Rubric-Conditioned Self-Distillation框架，用评分标准替代标量奖励，提供token级指导。方法分两步：先学习生成任务级评分标准，再训练评分标准引导的推理器。在多个科学推理基准上平均超越GRPO 1.0分、OPSD 0.9分。避免了单一参考推理链的噪声和标量奖励的模糊性。

AI模型 Rubric-Conditioned Self-Distillation 推理模型自我蒸馏评分标准科学推理

推荐理由：想提升推理模型训练效果？这篇用评分标准做细粒度自蒸馏，比GRPO和OPSD都强，实验扎实。

原文

10:57

arXiv cs.AI@Chenyu Zhou, Qiliang Jiang, Shuning Wu, Xu Zhou

论文提出MAST方法，在Qwen2.5-Math-1.5B和Qwen3-1.7B-Base上选择性遗忘RLVR诱导的推理，相比全参数更新附带损害更小。MAST通过token级delta-log-probability分析发现SFT-to-RLVR增量与SFT更新差异显著，全参数梯度上升会损害MATH和GSM8K保留性能。MAST基于离主成分能量、更新幅度和遗忘梯度耦合幅度排序注意力投影张量，仅更新前k个子集。在Qwen2.5-Math-1.5B上，MAST使MATH遗忘从45/150降至37/150（McNemar p=0.0078），且GSM8K提升0.8个百分点，MATH保留仅下降0.5个百分点。在Qwen3上，MAST保持GSM8K，而全参数遗忘使其崩溃。

论文 MAST Qwen2.5 Qwen3 推理模型选择性遗忘

推荐理由：这篇论文提出了MAST，一种更精准的模型遗忘方法，在Qwen2.5和Qwen3上只遗忘你想忘的，保留数学能力不掉。适合研究模型编辑或推理安全的同学。

原文

10:54

arXiv cs.LG@Haipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang

STARE针对GRPO等强化学习训练中策略熵崩溃问题，提出令牌级信用分配纠偏方法。通过惊讶度分位数识别熵关键令牌子集，选择性重加权其有效优势，并引入目标熵闭环门控实现稳定熵调节。在1.5B至32B规模模型及短CoT、长CoT、多轮工具使用三类任务中，STARE可维持数千步稳定训练。在AIME24和AIME25上，STARE准确率较DAPO等基线提升4%-8%，反射令牌和响应长度同步增长，表明探索-利用平衡得到改善。代码已开源。

论文 STARE GRPO 策略熵强化学习推理模型

推荐理由：STARE解决了GRPO训练中策略熵崩溃的老问题，在AIME数学竞赛上比DAPO高4-8个点，代码也开源了，搞RL训练的同学可以试试。

原文

10:22

arXiv: DeepSeek@Ruida Wang, Rui Pan, Pengcheng Wang, Shizhe Diao, Tong Zhang

研究团队提出Diffusion-Proof，这是首个将扩散LLM（dLLM）应用于形式定理证明的框架。该框架包含两个7B模型：dLLM-Prover-7B负责整段证明生成，dLLM-Corrector-7B利用双向信息进行局部校正。相比同等数据集训练的自回归基线，Diffusion-Proof在ProofNet-Test上提升1.61%，在MiniF2F-Test上提升6.14%。此外，该框架成功解决了一个更先进的DeepSeek-Prover-V2-7B未能解答的IMO问题，展示了扩散模型在长程连贯性任务上的优势。

AI模型 Diffusion-Proof dLLM 推理模型形式定理证明数学证明

推荐理由：扩散模型也能做定理证明了，比自回归强，MiniF2F上高出6个百分点，还解了一道DeepSeek没解出的IMO题。

原文

09:41

arXiv cs.AI@Jinhao Song, Shan Liang, Yiqun Yue, Zhuhuayang Zhang, Tianqi Gao

ThinkDeception首次将多模态大语言模型(MLLM)引入欺骗检测领域，将其从二分类任务转变为显式认知推理过程。研究团队构建了首个逐步多模态思维链(CoT)数据集，并基于此开发基础模型ThinkDeception Base。核心创新是提出Visual-Audio Consistency Group Relative Policy Optimization(VAC-GRPO)，采用渐进式训练将数据分为四个难度层级。在主流基准上，ThinkDeception在检测准确性和推理质量上达到新SOTA。

AI模型 ThinkDeception MLLM 多模态思维链(CoT)推理模型

推荐理由：这个框架用MLLM和思维链一步步拆解欺骗线索，比黑箱模型更能解释为什么判定说谎，准确率还最高。

原文

6月17日

10:45

arXiv cs.AI@Sajad Movahedi, Vera Milovanović, Shlomo Libo Feigin, Alexander Theus, Thomas Hofmann, Valentina Boeva, T. Konstantin Rusch, Antonio Orvieto

循环架构通过循环利用层数为组合推理任务提供逐步推理的归纳偏置。随着循环深度增加，信号传播问题加剧，影响模型性能。本文提出FPRM，一种基于Transformer的固定点推理模型，采用预归一化层和残差缩放解决信号传播，并以固定点收敛作为端到端停止机制。FPRM在Sudoku、Maze、状态跟踪和ARC-AGI基准上验证了有效性。

论文 FPRM Transformer 固定点推理推理模型架构优化

推荐理由：这篇论文提出了FPRM，用固定点收敛让循环推理深度自适应任务难度，在Sudoku和ARC-AGI上效果不错，适合关注推理架构的人。

原文

09:37