精选 AI 资讯 · AI 热点

6月30日

13:46

arXiv cs.AI@Xinlei Yu, Gen Li, Qingyi Si, Guibin Zhang, Yuqi Xu, Congcong Wang, Shuai Dong, Kaiwen Tuo, Xiangyu Zeng, Kaituo Feng, Qunzhong Wang, Yang Shi, Xiaobin Hu, Xiangyu Yue, Jiaqi Wang, Shuicheng Yan

精选

DOPD是一种advantage-aware的双重蒸馏范式，通过动态路由令牌级监督信号，在特权教师和特权学生策略之间进行分配，缓解了传统同策略蒸馏中的特权幻觉问题。实验在LLM（如GPT-2）和VLM（如CLIP）上验证，结果显示DOPD在稳定性和鲁棒性等指标上持续优于Vanilla OPD。

论文 DOPD LLM VLM 蒸馏模型压缩

推荐理由：这篇论文提出了一种新蒸馏方法DOPD，通过分令牌监督解决特权幻觉，在LLM和VLM上效果都更好，适合关注模型压缩的研究者。

原文

6月19日

00:02

Geek@geekbb

精选

Unsloth AI 将最强开源模型 GLM-5.2 从 1.51TB 压缩至 238GB（缩小 84%），2-bit 量化版本保留约 82% 准确率。该模型可在 256GB Mac 或同等 RAM/VRAM 配置上本地运行。官方指南和 GGUF 文件已在 Hugging Face 发布。

AI模型 GLM-5.2 Unsloth 本地运行模型压缩开源模型

推荐理由：Unsloth 把 1.5TB 的 GLM-5.2 压到 238GB，本地就能跑，准确率还能保住 82%。有 256GB 内存的 Mac 就能玩，开源模型天花板。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

09:20

arXiv cs.LG@Juan Amboage, Pablo Monteagudo-Lago, Ian Colbert, Giuseppe Franco, Nicholas Fraser

精选

后训练量化（PTQ）通过将权重映射到低位表示来压缩大语言模型，但量化网格的缩放因子通常使用简单的无数据启发式方法选择。本文提出 PiSO（分段尺度优化）算法，利用校准数据在四舍五入量化下精确高效地计算最优通道级权重尺度。PiSO 将尺度搜索空间划分为有限区间，每个区间上目标函数有闭式解。实验表明，在 Llama 和 Qwen 模型上，PiSO 在困惑度和下游零样本准确率上均有一致提升，且位宽越窄收益越明显。

论文后训练量化模型压缩大语言模型 PiSO Llama/Qwen

推荐理由：大模型量化部署的团队终于有了一个理论扎实的尺度优化方法——PiSO 在低位宽下效果尤其显著，做模型压缩的开发者可以直接参考论文中的算法实现。

原文

6月6日

08:26

rohanpaul_ai@rohanpaul_ai

精选72°

Google 发布了 Gemma 4 的 QAT（量化感知训练）检查点，将最小模型从 11.4GB 压缩至 1.1GB，纯文本版本仅 0.84GB。与传统的 PTQ（训练后量化）不同，QAT 在训练过程中模拟压缩，让模型学会在权重被压缩时保持推理质量。Google 还构建了针对移动端的格式，包括静态激活、通道级量化、目标 2 位量化和 KV 缓存优化，减少手机计算负担，延长长对话的内存使用。这使得 Gemma 4 更容易在手机和笔记本上运行，降低了部署门槛。

AI模型 Gemma 4 量化移动端部署 QAT 模型压缩

推荐理由：QAT 解决了模型压缩后推理质量下降的痛点，做移动端 AI 部署的开发者可以直接用这些检查点，在手机上跑大模型不再吃内存。

原文

6月2日

11:59

arXiv cs.AI@Elia Cunegatti, Marcus Vukojevic, Erik Nielsen, Giovanni Iacca

精选

现有 LLM 后训练压缩方法将整个层替换为轻量模块，但受限于全层粒度和连续选择。SubFit 提出子模块级替换，允许非连续地选择 Attention 和 FeedForward 子模块，并为每个子模块独立学习残差旁路。实验覆盖 10 个 LLM（5 个基础、5 个指令微调）和 5 个稀疏度（12.5%-37.5%），在 25% 稀疏度下，SubFit 保留 84.6% 下游精度（最强基线 81.6%），困惑度仅退化 2.42 倍（基线 4.34 倍）。该方法仅需校准数据，可带来推理加速和 KV 缓存节省。代码已开源。

论文模型压缩 LLM 部署子模块替换后训练压缩 SubFit

推荐理由：做 LLM 部署优化的团队终于有了更精细的压缩工具——SubFit 在 25% 稀疏度下精度损失比最强基线少一半，且非连续子模块选择更贴合真实冗余分布，建议做模型量化和剪枝的开发者直接试。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月28日

11:56

arXiv: DeepSeek@Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho

精选72°

该研究提出了首个系统化框架，将混合专家模型（MoE）转换为标准全稠密架构。通过专家评分、选择、分组并拼接成稠密前馈网络，再通过知识蒸馏从MoE教师模型精炼。在Qwen3-30B-A3B上评估了7种评分、5种分组和2种幅度缩放方法，共350种配置。发现评分方法影响最大，其提出的多样性感知评分在多个模型上优于先前方法。在参数匹配控制下，MoE转稠密比稠密到稠密剪枝平均下游准确率提升6.3个百分点，训练速度快1.6倍。

论文模型压缩知识蒸馏混合专家模型稠密模型 Qwen3

推荐理由：这个框架解决了MoE模型在内存受限设备上部署的痛点，做模型压缩和边缘部署的团队可以直接参考其方法，比传统剪枝效果更好且训练更快。

原文

5月27日

12:16

arXiv: DeepSeek@Guanghui Wang, Kaiwen Lv Kacuila, Zhiyong Yang, Zitai Wang, Jin-Wen Wu, Longtao Huang, Qianqian Xu, Qingming Huang

精选72°

这篇论文发现，在 LLM 知识蒸馏中，混合使用教师模型的硬标签（采样 token）和软标签（完整分布）比单独使用任何一种效果更好。作者提出 Bridge-Garden 分解理论，将生成步骤分为“桥”（需精确 token）和“花园”（可灵活选择）两类，硬标签擅长处理桥，软标签擅长处理花园，混合策略能减少训练与推理之间的暴露偏差。基于该理论开发的混合监督方法在 7 组师生模型（含 Qwen、Llama、Gemma、DeepSeek）上优于现有基线，同时将训练成本降低 9.7 倍。代码已开源。

论文知识蒸馏暴露偏差混合标签模型压缩 Qwen/Llama/Gemma/DeepSeek

推荐理由：做 LLM 蒸馏的团队终于有了理论指导——Bridge-Garden 理论解释了为什么混合标签有效，并且直接给出了可落地的方案，训练成本还降了 9.7 倍，建议做模型压缩的开发者点开看看。

原文

5月21日

12:31

arXiv cs.LG@Qishi Zhan, Ziheng Chen, Minxuan Hu

精选

针对一次性幅度剪枝导致的高稀疏度下精度崩溃问题，本文提出了一种无需训练的通道级修复方法——自适应信号复苏（ASR）。该方法通过为每个输出通道估计方差匹配校正，并利用数据驱动的收缩规则稳定校正值，避免了对受损通道的过度放大。在ResNet-50 90%稀疏度下，ASR在CIFAR-10上恢复了55.6%的top-1准确率，远超逐层修复的41.0%和仅BatchNorm重校准的28.0%。实验表明，ASR在多种卷积架构和稀疏设置下均优于现有方法，尤其在高稀疏度场景下效果显著。

论文模型压缩剪枝稀疏网络通道级修复视觉网络

推荐理由：做模型压缩和边缘部署的团队终于有了一个无需重训的通道级修复方案——ASR在高稀疏度下能显著挽回精度损失，建议做剪枝优化的开发者直接试。

原文

5月20日

10:35

arXiv cs.AI@Hyunsoo Han, Sangyeop Yeo, Jaejun Yoo

精选

该研究提出了一种名为 LIFT and PLACE 的知识蒸馏框架，用于训练轻量级扩散模型。LIFT 将蒸馏过程分解为粗对齐和细调优两个阶段，先让学生模型学习教师模型的整体分布，再处理细节。PLACE 则通过分组自适应系数处理空间非均匀误差，进一步提升了蒸馏效果。实验表明，该方法在图像/潜空间、U-Net/DiT 骨干网络、条件/无条件生成等场景下均有效，甚至在极端压缩（学生模型仅 1.3M 参数，为教师的 1.6%）时，传统蒸馏方法失效（FID 高达 50-200+），而新方法仍能稳定收敛并达到 FID 15.73。

论文知识蒸馏扩散模型模型压缩 LIFT PLACE

推荐理由：做扩散模型轻量化或模型压缩的团队，终于有了一个在极端压缩下仍能稳定训练的蒸馏方案，值得直接复现实验。

原文

5月18日

10:31

arXiv cs.LG@Gabriel Garcia

精选

这篇论文发现，判断Transformer层是否“等价”时，常用的替换测试和交换测试会给出截然不同的结论。替换测试看一层能否替代另一层的位置，交换测试看两层互换后输出是否近似。在Pythia、Qwen3-8B和Llama-3.1-8B等模型上，两种测试的差距从训练初期到收敛逐渐扩大。例如Qwen3-8B在8B规模下，交换测试指导的剪枝比替换测试安全数倍，而Llama-3.1-8B两种测试的剪枝成本却相近。这意味着研究者不能只依赖单一指标判断层冗余，否则可能误判哪些层可以安全剪枝或合并。

论文模型压缩层等价性剪枝 Qwen3-8B Llama-3.1-8B

推荐理由：做模型压缩或剪枝的团队，如果只用一种等价性测试就决定删层，可能会踩坑——这篇论文用Qwen3-8B和Llama-3.1-8B的对比告诉你，测试方法选错，安全剪枝的层数能差好几倍。建议在剪枝前先跑一下两种swap-KL诊断。

原文