全部 AI 动态 · AI 热点

6月17日

11:26

11:26

arXiv cs.LG@Marco Deano, Filippo Ziche, Nicola Bombieri

论文提出S4oP，一种增量式运算符级剪枝方法，针对S4和S4D结构状态空间模型。该方法通过交替结构化掩码和微调逐步剪枝运算符。实验在多个基准数据集上表明，剪枝70%的模型运算符仍能保持原模型性能，同时显著降低推理延迟。这是首次系统研究SSM的结构化运算符剪枝。

论文 S4oP S4 S4D SSM 模型剪枝

推荐理由：这篇论文把S4模型剪掉70%计算量还能保持性能，想在小设备上跑S4模型可以看看。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

20:28

20:28

Tri Dao (FlashAttention)@tri_dao

精选

在运行大规模上下文智能体时，Qwen 3.5和Nemotron Ultra等混合模型面临Gated-DeltaNet/Mamba状态的瓶颈。一个简单洞察是加载状态并计算但不存储，可使速度提升2倍。该重计算技巧最终解锁了状态空间模型（SSM）的推测解码（spec decoding）功能。

技巧 Qwen 3.5 Nemotron Ultra Mamba SSM 推测解码

推荐理由：不用存状态，算完就扔，SSM推理直接快一倍，Qwen 3.5和Nemotron Ultra用户试试这个技巧。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

00:27

00:27

rohanpaul_ai@rohanpaul_ai

精选76°

Nvidia 将在几天内发布 Nemotron 3 Ultra 模型。该模型采用混合状态空间模型（SSM）与混合专家（MoE）架构，SSM 部分专为长序列设计，使模型能够更长时间地保持推理或使用工具，而不会被常规注意力机制的计算成本压垮。黄仁勋在 NVIDIA GTC Taipei 2026 上宣布了此消息。

AI模型 Nemotron 3 Ultra Nvidia SSM MoE 长序列推理

推荐理由：Nemotron 3 Ultra 的混合 SSM+MoE 架构解决了长序列推理的高成本痛点，做长上下文应用或工具调用的开发者值得关注，可以直接期待其发布。