精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月3日

10:42

arXiv cs.LG@Mihail Stoian, Mark Gerarts, Pascal Ginter, Andreas Zimmerer, Jan Van den Bussche, Andreas Kipf

精选

数据库厂商最近发布了可在过滤谓词中使用的AI函数，但这些函数依赖昂贵且黑盒的ML模型，带来了新的数据管理挑战。传统的数据跳过技术（如针对整数和字符串的）无法适用于这种新过滤器类型，因为没有已知机制能在读取blob存储文件时剪枝不符合条件的行组。本文首次研究ML过滤器的数据跳过技术，证明Parquet默认的min-max元数据足以实现剪枝，并借鉴了ML模型查询语言和神经网络验证两个研究方向。在ReLU架构上的初步实验表明，对于选择性低于0.1%的过滤器，平均剪枝效果达27.4%。此外，受空间连接研究启发，作者提出了一种增强元数据结构——有大小限制的2D凸包，使剪枝效果提升至38.31%，且每行组和列对仅占用最多45字节，在DuckDB中实现了相对于PyTorch的1.07倍端到端加速。

论文数据跳过 ML过滤器元数据剪枝 Parquet

推荐理由：数据库团队终于有了处理ML过滤器的数据跳过方案——用轻量元数据就能剪枝，做大数据分析或数据库内核开发的建议看看，能直接提升查询性能。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月21日

12:31

arXiv cs.LG@Qishi Zhan, Ziheng Chen, Minxuan Hu

精选

针对一次性幅度剪枝导致的高稀疏度下精度崩溃问题，本文提出了一种无需训练的通道级修复方法——自适应信号复苏（ASR）。该方法通过为每个输出通道估计方差匹配校正，并利用数据驱动的收缩规则稳定校正值，避免了对受损通道的过度放大。在ResNet-50 90%稀疏度下，ASR在CIFAR-10上恢复了55.6%的top-1准确率，远超逐层修复的41.0%和仅BatchNorm重校准的28.0%。实验表明，ASR在多种卷积架构和稀疏设置下均优于现有方法，尤其在高稀疏度场景下效果显著。

论文模型压缩剪枝稀疏网络通道级修复视觉网络

推荐理由：做模型压缩和边缘部署的团队终于有了一个无需重训的通道级修复方案——ASR在高稀疏度下能显著挽回精度损失，建议做剪枝优化的开发者直接试。

原文

5月20日

11:31

arXiv cs.LG@Yuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang

精选

投机解码通过草稿-验证范式加速大模型推理，但现有方法构建的庞大草稿树带来严重的显存带宽和计算开销。动态深度剪枝虽能减少延迟，却会丢弃潜在有效候选，导致接受率无法达到稠密树的上限。本文提出Graft框架，将剪枝与检索作为相互增强的操作：剪枝释放计算预算，检索补偿剪枝导致的覆盖损失并恢复接受长度。Graft采用“先剪后接”机制，以近乎零开销将高预测性的检索令牌填入剪枝空位，无需训练且无损。在短上下文、长上下文及大规模模型（如Qwen3-235B）上，Graft实现了最高5.41倍加速，平均加速比EAGLE-3提升21.8%，并初步探索了在非自回归草稿范式中的应用。

论文投机解码推理加速剪枝检索补偿大模型部署

推荐理由：做推理加速的团队终于有了一个不牺牲接受率的剪枝方案——Graft用检索补偿剪枝损失，直接提升EAGLE-3 21.8%的加速比，搞LLM部署的值得试试。

原文

5月18日

10:31

arXiv cs.LG@Gabriel Garcia

精选

这篇论文发现，判断Transformer层是否“等价”时，常用的替换测试和交换测试会给出截然不同的结论。替换测试看一层能否替代另一层的位置，交换测试看两层互换后输出是否近似。在Pythia、Qwen3-8B和Llama-3.1-8B等模型上，两种测试的差距从训练初期到收敛逐渐扩大。例如Qwen3-8B在8B规模下，交换测试指导的剪枝比替换测试安全数倍，而Llama-3.1-8B两种测试的剪枝成本却相近。这意味着研究者不能只依赖单一指标判断层冗余，否则可能误判哪些层可以安全剪枝或合并。

论文模型压缩层等价性剪枝 Qwen3-8B Llama-3.1-8B

推荐理由：做模型压缩或剪枝的团队，如果只用一种等价性测试就决定删层，可能会踩坑——这篇论文用Qwen3-8B和Llama-3.1-8B的对比告诉你，测试方法选错，安全剪枝的层数能差好几倍。建议在剪枝前先跑一下两种swap-KL诊断。

原文