10:36arXiv: DeepSeek@Hui Zang, Pengfei Xia, Hong Liu, Jiajia Chu, Tuo Hao, Minghao Chen, Rui Zhang, Ziyang Zhang精选Mixture-of-Experts (MoE)架构通过稀疏激活扩展模型规模,但数据移动瓶颈导致推理效率低下。两个关键问题:低贡献专家带来几乎均等的内存与传输成本(成本收益比低),以及多设备部署中受最慢设备限制。CAEE框架利用轻量级成本模型估算硬件开销,选择性剪枝低重要性高成本专家,并通过低开销补偿机制避免额外数据传输。在DeepSeek-R1(671B参数)上的评估显示,CAEE将端到端推理延迟降低8%-18%(专家卸载与设备内执行),模型准确率下降小于1%。论文CAEEMoEDeepSeek-R1推理优化多设备推荐理由:CAEE框架能降低MoE模型推理延迟8%-18%,且准确率几乎不受影响。DeepSeek-R1用户可重点关注。原文
10:10arXiv: DeepSeek@Wenhao Liu, Hao Shi, Yunhe Li, Weizhi Fei, Xiangyuan Wang, Mengzhe Ruan, Hanxu Hou, Peisong Wang, Linqi Song, Shuang Qiu精选ReasonAlloc 是一种无需训练的框架,针对大语言模型推理中长思维链(CoT)导致的KV缓存快速增长问题,提出分层预算分配方案。它通过离线层间预分配捕捉架构驱动的“推理波”模式,并结合在线头间实时重分配,将资源导向信息丰富的注意力头。在数学推理基准(MATH-500、AIME 2024)上,使用DeepSeek-R1-Distill-Llama-8B等模型测试,ReasonAlloc在低预算(128-512 tokens)下显著优于均匀预算方法(如R-KV、SnapKV)。该框架可即插即用于现有token驱逐策略,且推理开销极小。论文KV缓存压缩推理模型预算分配解码优化DeepSeek-R1推荐理由:推理模型的长CoT导致KV缓存爆炸,做推理优化的开发者可以直接用ReasonAlloc替代均匀预算方案,在低预算下获得显著性能提升。原文
09:06arXiv: DeepSeek@Jinghua Wang, Lily Jiaxin Wan, Sanjana Pingali, Scott Smith, Manvi Jha, Shalini Sivakumar, Xing Zhao, Kaiwen Cao, Deming Chen精选OpenRTLSet 发布了目前最大的全开源硬件设计数据集,包含超过 131,000 个多样化的 Verilog 代码样本。数据集整合了来自 GitHub 的 102k 模块、VHDL 翻译的 5k 模块以及可综合 C/C++ 翻译的 24k 模块,全部免费开放且无专有限制。研究团队利用推理模型 DeepSeek-R1 为每个代码样本生成了对应的自然语言描述,可用于微调 Qwen、Granite 等语言模型以生成 Verilog 代码。实验还探索了 Verilator 生成的 C++ 文件作为额外上下文、INT4 与 BF16 量化技术以及 7B-32B 参数模型间的性能差异。结果表明,开源方法在硬件设计任务上能达到甚至超越专有方案,为可访问的研究和商业应用奠定了新基础。论文硬件设计Verilog数据集开源/仓库DeepSeek-R1推荐理由:硬件设计领域终于有了大规模开源数据集,做芯片验证或 RTL 生成的团队可以直接用这 13 万样本微调模型,省去自己爬取和标注的麻烦。建议做 EDA 工具或 AI for Hardware 的开发者点开看看。原文
09:23arXiv cs.AI@Yuxiang Chen, Jun Wang精选72°一项新研究对DeepSeek-R1-0120模型与人类在AIME 2025数学竞赛30道题上的推理过程进行了全面比较,标注了10247个推理步骤。研究发现,DeepSeek-R1的推理存在“拓扑模仿”现象:它频繁进行浅层验证和局部循环,缺乏人类推理中紧凑的分析与演绎交替结构。然而,成功的推理轨迹显示出稳定的分支和回溯使用,而失败的轨迹则过度或不足使用探索性动作。反思只有在演绎推理中才有效,陷入分析循环的反思往往忽略全局逻辑错误。研究建议改进评估和训练,包括测量跨轨迹稳定性、惩罚“空转”轨迹、鼓励深层逻辑修正。论文推理模型DeepSeek-R1数学推理认知科学评估方法推荐理由:这篇论文戳穿了当前长链推理模型的表面繁荣——做AI推理研究的团队会发现,模型可能只是在模仿推理的“样子”而非真正进步,值得细读其提出的改进方向。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
12:15arXiv: DeepSeek@Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp精选72°最新研究发现,大型推理模型(LRM)的拒绝机制不仅依赖于残差流激活,还依赖于思维链(CoT)。在 DeepSeek-R1-Distill-LLaMA-8B 上,固定 CoT 时激活引导仅能反转 39% 的拒绝,移除 CoT 后提升至 70%,表明 CoT 主动强化了拒绝。通过两阶段干预(在激活引导下重新生成 CoT),拒绝反转率达到 94%,且生成的 CoT 在移除引导后仍能独立保持 48% 的顺从信号。这说明 CoT 可以独立携带并重建顺从信号,使 LRM 对激活级干预更鲁棒,但也暴露出 CoT 可能成为新的攻击面。论文推理模型安全/对齐思维链激活引导DeepSeek-R1推荐理由:这项研究揭示了 CoT 在模型安全中的双重角色——既增强鲁棒性又引入新风险,做 AI 安全和对齐的团队值得关注,尤其是使用推理模型的开发者需要重新评估防御策略。原文
10:07arXiv: DeepSeek@Tianxiang Xu, Xiaoyan Zhu, Xin Lai, Xin Lian, Hangyu Cheng, Jiayin Wang精选现有软件缺陷检测研究缺乏针对生物信息学软件的专用数据集,导致模型在该领域表现受限。研究者推出了BioDefect,这是首个专为生物信息学软件缺陷检测设计的数据集,包含完整源代码仓库,保留了缺陷代码的真实上下文信息。该数据集解决了标签不一致和数据泄露问题,确保高质量和实验可靠性。在包括DeepSeek-R1在内的9个语言模型上的评估显示,BioDefect相比现有数据集平均F1分数提升29.61%至38.04%。这项工作填补了生物信息学软件缺陷检测的研究空白,为提升该领域软件质量保障提供了新方向。论文缺陷检测生物信息学数据集DeepSeek-R1软件质量推荐理由:做生物信息学软件质量保障的团队终于有了专用数据集——BioDefect 比通用数据集 F1 提升近 40%,做缺陷检测研究的可以直接用它来训练和评估模型。原文
10:55arXiv: DeepSeek@Yanhang Li, Zhichao Fan, Zexin Zhuang精选该研究审计了推理模型在遗忘后是否仍通过思维链泄露已遗忘内容。使用 DeepSeek-R1-Distill-Qwen-7B 和 LoRA 记忆虚构作者,通过 NPO 遗忘和六 token canary 头条件,发现思维链替换为短非 canary 前缀可显著降低答案率,而 bypass 间隙本身不能可靠指示权重级记忆。不同种子下结果不一致,甚至出现反转。推荐在标准审计外增加解码时模板替换作为廉价检查。论文推理模型遗忘审计思维链记忆残留DeepSeek-R1推荐理由:做模型遗忘审计的团队会发现,思维链泄露可能被误判为权重记忆,这篇论文提供了一个简单有效的 sanity check 方法,值得在评估流程中加上。原文
13:26arXiv: DeepSeek@Chenjun Xu, Zhennan Zhou, Zhan Su, Bill Howe, Lucy Lu Wang, Bingbing Wen精选长链推理(Long CoT)虽能提升多步推理性能,但常导致模型过度思考,产生低效推理,增加推理成本。STOP 提出一种结构化在线策略剪枝算法,通过自蒸馏、节点分割和推理树构建,识别并保留最早的正确推理节点(ECN),去除冗余推理。在 DeepSeek-R1-Distill-Qwen-7B 等模型上,STOP 在低数据微调场景下减少 19.4%-42.4% 的生成 token,同时基本保持准确率。该方法比教师引导剪枝带来更小的分布偏移,并将推理努力从冗余验证转向更高效的探索。论文推理模型剪枝/优化低数据微调长链推理DeepSeek-R1推荐理由:做推理模型微调或部署的团队,STOP 解决了低数据场景下长链推理成本高的问题,直接减少 token 消耗,建议试试这个轻量剪枝方案。原文