11:26arXiv cs.LG@Marco Deano, Filippo Ziche, Nicola Bombieri论文提出S4oP,一种增量式运算符级剪枝方法,针对S4和S4D结构状态空间模型。该方法通过交替结构化掩码和微调逐步剪枝运算符。实验在多个基准数据集上表明,剪枝70%的模型运算符仍能保持原模型性能,同时显著降低推理延迟。这是首次系统研究SSM的结构化运算符剪枝。论文S4oPS4S4DSSM模型剪枝推荐理由:这篇论文把S4模型剪掉70%计算量还能保持性能,想在小设备上跑S4模型可以看看。原文
20:28Tri Dao (FlashAttention)@tri_dao精选在运行大规模上下文智能体时,Qwen 3.5和Nemotron Ultra等混合模型面临Gated-DeltaNet/Mamba状态的瓶颈。一个简单洞察是加载状态并计算但不存储,可使速度提升2倍。该重计算技巧最终解锁了状态空间模型(SSM)的推测解码(spec decoding)功能。技巧Qwen 3.5Nemotron UltraMambaSSM推测解码1 个信源在谈推荐理由:不用存状态,算完就扔,SSM推理直接快一倍,Qwen 3.5和Nemotron Ultra用户试试这个技巧。原文
00:27rohanpaul_ai@rohanpaul_ai精选76°Nvidia 将在几天内发布 Nemotron 3 Ultra 模型。该模型采用混合状态空间模型(SSM)与混合专家(MoE)架构,SSM 部分专为长序列设计,使模型能够更长时间地保持推理或使用工具,而不会被常规注意力机制的计算成本压垮。黄仁勋在 NVIDIA GTC Taipei 2026 上宣布了此消息。AI模型Nemotron 3 UltraNvidiaSSMMoE长序列推理9 个信源在谈推荐理由:Nemotron 3 Ultra 的混合 SSM+MoE 架构解决了长序列推理的高成本痛点,做长上下文应用或工具调用的开发者值得关注,可以直接期待其发布。原文