12:05AI Will@FinanceYF5精选ZEDA是一种针对混合专家模型(MoE)的后训练方法,通过自蒸馏技术让模型学会在推理时跳过半数专家,从而大幅降低计算成本。与传统的剪枝不同,ZEDA赋予模型“算力预算意识”,使其能根据每个token的重要性动态决定是否投入计算资源。该方法在保持性能的同时显著提升效率,为大规模MoE模型的部署提供了新思路。论文已发布在arXiv上。论文MoE/混合专家模型压缩/加速自蒸馏算力优化ZEDA推荐理由:做MoE模型部署或推理优化的团队,ZEDA直接解决了算力浪费问题——跳过一半专家还能保持效果,值得一试。原文