10:36arXiv: DeepSeek@Hui Zang, Pengfei Xia, Hong Liu, Jiajia Chu, Tuo Hao, Minghao Chen, Rui Zhang, Ziyang Zhang精选Mixture-of-Experts (MoE)架构通过稀疏激活扩展模型规模,但数据移动瓶颈导致推理效率低下。两个关键问题:低贡献专家带来几乎均等的内存与传输成本(成本收益比低),以及多设备部署中受最慢设备限制。CAEE框架利用轻量级成本模型估算硬件开销,选择性剪枝低重要性高成本专家,并通过低开销补偿机制避免额外数据传输。在DeepSeek-R1(671B参数)上的评估显示,CAEE将端到端推理延迟降低8%-18%(专家卸载与设备内执行),模型准确率下降小于1%。论文CAEEMoEDeepSeek-R1推理优化多设备推荐理由:CAEE框架能降低MoE模型推理延迟8%-18%,且准确率几乎不受影响。DeepSeek-R1用户可重点关注。原文
09:46arXiv: DeepSeek@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong71°RaDaR是一个32B参数的开源推理大模型,专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中,RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断,提前时间1.87个月。在随机医生辅助试验中,RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。AI模型RaDaRDeepSeek-R1开源模型罕见病诊断推理模型推荐理由:RaDaR发布了一个32B开源推理模型,罕见病诊断比DeepSeek-R1还强,医生用它准确率提升21%。原文
10:21arXiv: DeepSeek@Tom Hadfield该论文提出一种新的数据流形内在维度度量——Patnaik-Pearson维度,灵感来自HTSR、SETOL以及TwoNN估计器。作者证明权重矩阵经验谱密度服从帕累托分布时,该维度与HTSR和SETOL分析的尾指数临界值一致。通过理论分析和数值实验,研究了该维度在典型神经网络变换下的行为。在BERT-base和DeepSeek-R1-Distill-Qwen-1模型上,计算了token嵌入初始数据流形的维度及其随层数演变。所有代码和笔记本已在GitHub开源。论文Patnaik-Pearson维度BERT-baseDeepSeek-R1内在维度谱分析推荐理由:这篇论文提出了一个叫Patnaik-Pearson的新维度指标,用来分析BERT和DeepSeek模型内部表示的结构变化,还开源了代码,挺实用的。原文
10:49arXiv: DeepSeek@Ke Miao, Jiaxin Li, Hongliang Chen, Yuke Hu, Zhan Qin论文Safe Trigger提出利用大推理模型(LRM)自身的潜在安全意识进行安全对齐,无需外部人工标注。该方法先使用监督微调(SFT)为不安全查询注入安全标签触发安全分析,对一般查询保持原响应实现自适应;再通过直接偏好优化(DPO)提升安全分析的稳定性。实验显示,DeepSeek-R1-Distill-Llama-8B在有害和越狱基准上的攻击成功率(ASR)平均下降24.65%和36.72%,且通用性能几乎不受影响。论文Safe TriggerDeepSeek-R1大推理模型AI安全SFT推荐理由:这篇论文发现LRM自己就能识别风险,用SFT+DPO触发安全分析,让DeepSeek-R1的越狱成功率高降36%,还不用外部数据,挺实用的。原文
09:42arXiv: DeepSeek@Jiakai Li, Ke Qin, Rongzheng Wang, Yizhuo Ma, Qizhi Chen, Muquan Li, Shuang Liang大推理模型(LRM)常因过度思考生成冗余token,降低准确率。ASAG方法通过分析注意力分布推断推理状态,自适应调整生成策略。该方法无需训练,可即插即用,在DeepSeek-R1-Distill和Qwen3系列等主流模型上测试。在Qwen3-8B上,ASAG平均准确率提升3.2%,生成token减少约40%。论文ASAGDeepSeek-R1Qwen3推理模型注意力机制推荐理由:想减少推理模型输出废话?ASAG免费即插即用,在Qwen3-8B上准确率升3.2%还省近40%token,实打实的效果。原文
10:10arXiv: DeepSeek@Wenhao Liu, Hao Shi, Yunhe Li, Weizhi Fei, Xiangyuan Wang, Mengzhe Ruan, Hanxu Hou, Peisong Wang, Linqi Song, Shuang Qiu精选ReasonAlloc 是一种无需训练的框架,针对大语言模型推理中长思维链(CoT)导致的KV缓存快速增长问题,提出分层预算分配方案。它通过离线层间预分配捕捉架构驱动的“推理波”模式,并结合在线头间实时重分配,将资源导向信息丰富的注意力头。在数学推理基准(MATH-500、AIME 2024)上,使用DeepSeek-R1-Distill-Llama-8B等模型测试,ReasonAlloc在低预算(128-512 tokens)下显著优于均匀预算方法(如R-KV、SnapKV)。该框架可即插即用于现有token驱逐策略,且推理开销极小。论文KV缓存压缩推理模型预算分配解码优化DeepSeek-R1推荐理由:推理模型的长CoT导致KV缓存爆炸,做推理优化的开发者可以直接用ReasonAlloc替代均匀预算方案,在低预算下获得显著性能提升。原文
09:06arXiv: DeepSeek@Jinghua Wang, Lily Jiaxin Wan, Sanjana Pingali, Scott Smith, Manvi Jha, Shalini Sivakumar, Xing Zhao, Kaiwen Cao, Deming Chen精选OpenRTLSet 发布了目前最大的全开源硬件设计数据集,包含超过 131,000 个多样化的 Verilog 代码样本。数据集整合了来自 GitHub 的 102k 模块、VHDL 翻译的 5k 模块以及可综合 C/C++ 翻译的 24k 模块,全部免费开放且无专有限制。研究团队利用推理模型 DeepSeek-R1 为每个代码样本生成了对应的自然语言描述,可用于微调 Qwen、Granite 等语言模型以生成 Verilog 代码。实验还探索了 Verilator 生成的 C++ 文件作为额外上下文、INT4 与 BF16 量化技术以及 7B-32B 参数模型间的性能差异。结果表明,开源方法在硬件设计任务上能达到甚至超越专有方案,为可访问的研究和商业应用奠定了新基础。论文硬件设计Verilog数据集开源/仓库DeepSeek-R1推荐理由:硬件设计领域终于有了大规模开源数据集,做芯片验证或 RTL 生成的团队可以直接用这 13 万样本微调模型,省去自己爬取和标注的麻烦。建议做 EDA 工具或 AI for Hardware 的开发者点开看看。原文
09:23arXiv cs.AI@Yuxiang Chen, Jun Wang精选72°一项新研究对DeepSeek-R1-0120模型与人类在AIME 2025数学竞赛30道题上的推理过程进行了全面比较,标注了10247个推理步骤。研究发现,DeepSeek-R1的推理存在“拓扑模仿”现象:它频繁进行浅层验证和局部循环,缺乏人类推理中紧凑的分析与演绎交替结构。然而,成功的推理轨迹显示出稳定的分支和回溯使用,而失败的轨迹则过度或不足使用探索性动作。反思只有在演绎推理中才有效,陷入分析循环的反思往往忽略全局逻辑错误。研究建议改进评估和训练,包括测量跨轨迹稳定性、惩罚“空转”轨迹、鼓励深层逻辑修正。论文推理模型DeepSeek-R1数学推理认知科学评估方法推荐理由:这篇论文戳穿了当前长链推理模型的表面繁荣——做AI推理研究的团队会发现,模型可能只是在模仿推理的“样子”而非真正进步,值得细读其提出的改进方向。原文
10:32arXiv: DeepSeek@Ziyan Liu, Xueda Shen, Yuzhe Gu, Songyang Gao, Kuikun Liu, Guangran Cheng, Chengqi Lyu, Dahua Lin, Wenwei Zhang, Kai Chen72°大型推理模型(LRM)在链式思维(CoT)上通过可验证奖励强化学习(RLVR)取得了显著进展,但长CoT中固有的试错和冗余探索被强化,导致过度思考问题。现有方法主要偏向较短轨迹,但学习信号仍基于结果,无法减少长CoT中的冗余记忆。为此,研究者提出ThoughtFold框架,通过细粒度偏好学习来缓解冗余探索,实现高效推理。它采用内省策略识别正确轨迹中的冗余,生成候选子轨迹谱,并引入掩码偏好优化目标,显式惩罚冗余探索,鼓励模型直接连接关键推理段,从而折叠推理链。实验表明,ThoughtFold将DeepSeek-R1-Distill-Qwen-7B的token使用量减少约56%,同时保持最先进的准确性。论文推理模型链式思维偏好学习效率优化DeepSeek-R1推荐理由:ThoughtFold解决了LRM过度思考的痛点,做推理模型优化的团队可以直接参考其内省偏好学习方法,能大幅降低计算成本而不牺牲精度。原文
13:04arXiv: DeepSeek@S. J. Guo, S. Y. Wang, E. H. Wang, Z. M. Niu, Y. M. Ding研究人员提出了一种基于大语言模型的多任务学习框架,用于统一描述多个核物理可观测量。通过低秩适配(LoRA)微调预训练的 DeepSeek-R1-1.5B 模型,在保留通用参数的同时引入轻量适配器。该模型在因果语言建模范式下,对实验值与理论值的偏差进行自回归训练,在电荷半径、质量、结合能、分离能和衰变能等七个可观测量的预测上实现了显著精度提升,训练损失在所有任务中下降超过 98%。这项工作展示了基于 LLM 的框架通过结构化先验嵌入,为核物理基础属性的多任务回归提供了一种高效且共享的方法。论文大语言模型核物理多任务学习LoRA微调DeepSeek-R1推荐理由:核物理研究者终于有了一个统一的多任务预测工具——用 LLM 微调替代传统多模型方案,精度提升显著且效率更高,做核数据分析和理论验证的团队值得关注。原文
12:15arXiv: DeepSeek@Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp精选72°最新研究发现,大型推理模型(LRM)的拒绝机制不仅依赖于残差流激活,还依赖于思维链(CoT)。在 DeepSeek-R1-Distill-LLaMA-8B 上,固定 CoT 时激活引导仅能反转 39% 的拒绝,移除 CoT 后提升至 70%,表明 CoT 主动强化了拒绝。通过两阶段干预(在激活引导下重新生成 CoT),拒绝反转率达到 94%,且生成的 CoT 在移除引导后仍能独立保持 48% 的顺从信号。这说明 CoT 可以独立携带并重建顺从信号,使 LRM 对激活级干预更鲁棒,但也暴露出 CoT 可能成为新的攻击面。论文推理模型安全/对齐思维链激活引导DeepSeek-R1推荐理由:这项研究揭示了 CoT 在模型安全中的双重角色——既增强鲁棒性又引入新风险,做 AI 安全和对齐的团队值得关注,尤其是使用推理模型的开发者需要重新评估防御策略。原文
10:07arXiv: DeepSeek@Tianxiang Xu, Xiaoyan Zhu, Xin Lai, Xin Lian, Hangyu Cheng, Jiayin Wang精选现有软件缺陷检测研究缺乏针对生物信息学软件的专用数据集,导致模型在该领域表现受限。研究者推出了BioDefect,这是首个专为生物信息学软件缺陷检测设计的数据集,包含完整源代码仓库,保留了缺陷代码的真实上下文信息。该数据集解决了标签不一致和数据泄露问题,确保高质量和实验可靠性。在包括DeepSeek-R1在内的9个语言模型上的评估显示,BioDefect相比现有数据集平均F1分数提升29.61%至38.04%。这项工作填补了生物信息学软件缺陷检测的研究空白,为提升该领域软件质量保障提供了新方向。论文缺陷检测生物信息学数据集DeepSeek-R1软件质量推荐理由:做生物信息学软件质量保障的团队终于有了专用数据集——BioDefect 比通用数据集 F1 提升近 40%,做缺陷检测研究的可以直接用它来训练和评估模型。原文
10:55arXiv: DeepSeek@Yanhang Li, Zhichao Fan, Zexin Zhuang精选该研究审计了推理模型在遗忘后是否仍通过思维链泄露已遗忘内容。使用 DeepSeek-R1-Distill-Qwen-7B 和 LoRA 记忆虚构作者,通过 NPO 遗忘和六 token canary 头条件,发现思维链替换为短非 canary 前缀可显著降低答案率,而 bypass 间隙本身不能可靠指示权重级记忆。不同种子下结果不一致,甚至出现反转。推荐在标准审计外增加解码时模板替换作为廉价检查。论文推理模型遗忘审计思维链记忆残留DeepSeek-R1推荐理由:做模型遗忘审计的团队会发现,思维链泄露可能被误判为权重记忆,这篇论文提供了一个简单有效的 sanity check 方法,值得在评估流程中加上。原文
13:26arXiv: DeepSeek@Chenjun Xu, Zhennan Zhou, Zhan Su, Bill Howe, Lucy Lu Wang, Bingbing Wen精选长链推理(Long CoT)虽能提升多步推理性能,但常导致模型过度思考,产生低效推理,增加推理成本。STOP 提出一种结构化在线策略剪枝算法,通过自蒸馏、节点分割和推理树构建,识别并保留最早的正确推理节点(ECN),去除冗余推理。在 DeepSeek-R1-Distill-Qwen-7B 等模型上,STOP 在低数据微调场景下减少 19.4%-42.4% 的生成 token,同时基本保持准确率。该方法比教师引导剪枝带来更小的分布偏移,并将推理努力从冗余验证转向更高效的探索。论文推理模型剪枝/优化低数据微调长链推理DeepSeek-R1推荐理由:做推理模型微调或部署的团队,STOP 解决了低数据场景下长链推理成本高的问题,直接减少 token 消耗,建议试试这个轻量剪枝方案。原文
19:03arXiv: DeepSeek(学术论文)70°该研究揭示了共享输出Token预算时,长思维链会挤占答案空间,导致准确率下降的“耦合税”现象。在GSM8K、MATH-500等任务中,非思维链模式在≤2048 Token下表现更优,且Qwen3模型呈逆缩放规律。作者提出截断-浪费分解模型预测关键点,并通过拆分预算生成方法(如IRIS)将MATH-500准确率提升至83.6%。结果表明测试时推理应被视为预算分配问题。论文思维链Token预算推理模型Qwen3DeepSeek-R1推荐理由:该工作对当前LLM推理优化具有实际指导意义,提醒研究者在固定输出长度场景中平衡推理链与答案空间,避免盲目延长思维链。原文