AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:SSM×
6月17日
11:26
11:26arXiv cs.LG@Marco Deano, Filippo Ziche, Nicola Bombieri
论文提出S4oP,一种增量式运算符级剪枝方法,针对S4和S4D结构状态空间模型。该方法通过交替结构化掩码和微调逐步剪枝运算符。实验在多个基准数据集上表明,剪枝70%的模型运算符仍能保持原模型性能,同时显著降低推理延迟。这是首次系统研究SSM的结构化运算符剪枝。
论文S4oPS4S4DSSM模型剪枝

推荐理由:这篇论文把S4模型剪掉70%计算量还能保持性能,想在小设备上跑S4模型可以看看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
20:28
20:28Tri Dao (FlashAttention)@tri_dao
精选
在运行大规模上下文智能体时,Qwen 3.5和Nemotron Ultra等混合模型面临Gated-DeltaNet/Mamba状态的瓶颈。一个简单洞察是加载状态并计算但不存储,可使速度提升2倍。该重计算技巧最终解锁了状态空间模型(SSM)的推测解码(spec decoding)功能。
技巧Qwen 3.5Nemotron UltraMambaSSM推测解码

推荐理由:不用存状态,算完就扔,SSM推理直接快一倍,Qwen 3.5和Nemotron Ultra用户试试这个技巧。
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月2日
00:27
00:27rohanpaul_ai@rohanpaul_ai
精选76°
Nvidia 将在几天内发布 Nemotron 3 Ultra 模型。该模型采用混合状态空间模型(SSM)与混合专家(MoE)架构,SSM 部分专为长序列设计,使模型能够更长时间地保持推理或使用工具,而不会被常规注意力机制的计算成本压垮。黄仁勋在 NVIDIA GTC Taipei 2026 上宣布了此消息。
AI模型Nemotron 3 UltraNvidiaSSMMoE长序列推理

推荐理由:Nemotron 3 Ultra 的混合 SSM+MoE 架构解决了长序列推理的高成本痛点,做长上下文应用或工具调用的开发者值得关注,可以直接期待其发布。
原文
精选全部日报登录