全部 AI 动态 · AI 热点

6月25日

10:38

10:38

arXiv cs.LG@Kamar Hibatallah Baghdadi, Kawther Guoual Belhamidi, Sara Belhadj, Aissa Boulmerka, Nadir Farhi

HiReLC是一个分层集成强化学习框架，用于深度神经网络的自动联合量化与结构化剪枝。低层智能体按块独立选择位宽、剪枝保留比、量化类型和粒度，高层智能体基于Fisher信息估计协调全局预算分配。框架使用轻量MLP代理进行奖励塑造，降低策略评估成本。在Vision Transformer和CNN基准上，实现参数存储压缩比5.99-6.72倍，一个设定下准确率提升3.83%，其他设定准确率下降0.55-5.62%。

论文 HiReLC Vision Transformer CNN 剪枝量化

推荐理由：这个框架能自动给神经网络做剪枝和量化，压缩比达到6倍多，准确率几乎不掉，适合做模型部署。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

13:04

13:04

AK@_akhaliq

SpenseGPT提出一种实用的一次性剪枝方法，在LLM推理中同时支持稀疏和密集通用矩阵乘法（GEMM）。该方法无需重新训练，仅通过一次剪枝即可大幅减少模型参数。实验表明，在保持模型精度的前提下，剪枝后模型推理速度提升可达2倍。该技术适用于多种主流LLM架构。

论文 SpenseGPT 剪枝 LLM推理 GEMM 模型压缩

推荐理由：一次剪枝，推理快两倍

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月3日

10:42

10:42

arXiv cs.LG@Mihail Stoian, Mark Gerarts, Pascal Ginter, Andreas Zimmerer, Jan Van den Bussche, Andreas Kipf

精选

数据库厂商最近发布了可在过滤谓词中使用的AI函数，但这些函数依赖昂贵且黑盒的ML模型，带来了新的数据管理挑战。传统的数据跳过技术（如针对整数和字符串的）无法适用于这种新过滤器类型，因为没有已知机制能在读取blob存储文件时剪枝不符合条件的行组。本文首次研究ML过滤器的数据跳过技术，证明Parquet默认的min-max元数据足以实现剪枝，并借鉴了ML模型查询语言和神经网络验证两个研究方向。在ReLU架构上的初步实验表明，对于选择性低于0.1%的过滤器，平均剪枝效果达27.4%。此外，受空间连接研究启发，作者提出了一种增强元数据结构——有大小限制的2D凸包，使剪枝效果提升至38.31%，且每行组和列对仅占用最多45字节，在DuckDB中实现了相对于PyTorch的1.07倍端到端加速。

论文数据跳过 ML过滤器元数据剪枝 Parquet

推荐理由：数据库团队终于有了处理ML过滤器的数据跳过方案——用轻量元数据就能剪枝，做大数据分析或数据库内核开发的建议看看，能直接提升查询性能。

5月21日

12:31

12:31

arXiv cs.LG@Qishi Zhan, Ziheng Chen, Minxuan Hu

精选

针对一次性幅度剪枝导致的高稀疏度下精度崩溃问题，本文提出了一种无需训练的通道级修复方法——自适应信号复苏（ASR）。该方法通过为每个输出通道估计方差匹配校正，并利用数据驱动的收缩规则稳定校正值，避免了对受损通道的过度放大。在ResNet-50 90%稀疏度下，ASR在CIFAR-10上恢复了55.6%的top-1准确率，远超逐层修复的41.0%和仅BatchNorm重校准的28.0%。实验表明，ASR在多种卷积架构和稀疏设置下均优于现有方法，尤其在高稀疏度场景下效果显著。

论文模型压缩剪枝稀疏网络通道级修复视觉网络

推荐理由：做模型压缩和边缘部署的团队终于有了一个无需重训的通道级修复方案——ASR在高稀疏度下能显著挽回精度损失，建议做剪枝优化的开发者直接试。

5月20日

11:31

11:31

arXiv cs.LG@Yuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang

精选

投机解码通过草稿-验证范式加速大模型推理，但现有方法构建的庞大草稿树带来严重的显存带宽和计算开销。动态深度剪枝虽能减少延迟，却会丢弃潜在有效候选，导致接受率无法达到稠密树的上限。本文提出Graft框架，将剪枝与检索作为相互增强的操作：剪枝释放计算预算，检索补偿剪枝导致的覆盖损失并恢复接受长度。Graft采用“先剪后接”机制，以近乎零开销将高预测性的检索令牌填入剪枝空位，无需训练且无损。在短上下文、长上下文及大规模模型（如Qwen3-235B）上，Graft实现了最高5.41倍加速，平均加速比EAGLE-3提升21.8%，并初步探索了在非自回归草稿范式中的应用。

论文投机解码推理加速剪枝检索补偿大模型部署

推荐理由：做推理加速的团队终于有了一个不牺牲接受率的剪枝方案——Graft用检索补偿剪枝损失，直接提升EAGLE-3 21.8%的加速比，搞LLM部署的值得试试。

5月18日

10:31

10:31

arXiv cs.LG@Gabriel Garcia

精选

这篇论文发现，判断Transformer层是否“等价”时，常用的替换测试和交换测试会给出截然不同的结论。替换测试看一层能否替代另一层的位置，交换测试看两层互换后输出是否近似。在Pythia、Qwen3-8B和Llama-3.1-8B等模型上，两种测试的差距从训练初期到收敛逐渐扩大。例如Qwen3-8B在8B规模下，交换测试指导的剪枝比替换测试安全数倍，而Llama-3.1-8B两种测试的剪枝成本却相近。这意味着研究者不能只依赖单一指标判断层冗余，否则可能误判哪些层可以安全剪枝或合并。

论文模型压缩层等价性剪枝 Qwen3-8B Llama-3.1-8B

推荐理由：做模型压缩或剪枝的团队，如果只用一种等价性测试就决定删层，可能会踩坑——这篇论文用Qwen3-8B和Llama-3.1-8B的对比告诉你，测试方法选错，安全剪枝的层数能差好几倍。建议在剪枝前先跑一下两种swap-KL诊断。