21:56vLLM@vllm_projectKimi 发布 K2.7-Code,一个专注于编程的智能体模型,基于 K2.6 构建。该模型采用 1T 参数的混合专家架构,每次推理仅激活 32B 参数,配备 MLA 注意力机制和 256K 上下文窗口。相比 K2.6,K2.7-Code 的思考 token 减少了约 30%,推理更高效。该模型已获 vLLM 支持,可直接复用 K2.6 的部署配置,降低了迁移成本。AI模型编程智能体MoE/混合专家Kimi推理模型vLLM推荐理由:编程智能体模型终于有了更高效的选择——K2.7-Code 在保持 1T 参数规模的同时,将激活参数压缩到 32B,做代码生成和推理的开发者可以直接在 vLLM 上复用现有部署,值得一试。原文
09:11arXiv: DeepSeek@Leonard Engmann, Christian Medeiros Adriano, Holger Giese精选这篇论文对混合专家模型(MoE)中的专家重要性评估方法进行了因果审计。研究者发现,当前广泛使用的路由统计指标(如利用率、激活范数、路由权重分布)无法预测哪些专家可以被移除而不影响模型功能。他们在 OLMoE-1B-7B-0924、Qwen1.5-MoE-A2.7B 和 DeepSeek-V2-Lite 三个高冗余 MoE 架构上进行了 token 级干预实验,结果在所有 60 个指标-层组合中,观测指标与因果重要性之间的效应量均低于 Cohen's d = 0.17。现有剪枝方法之所以有效,并非因为它们识别出了可去除的专家,而是因为早期层的冗余性使得大多数选择标准可以互换。这项研究为可解释性领域提供了一个明确的反例,说明从总体观测统计到 token 级干预结论的推理步骤需要更严格的因果验证。论文MoE/混合专家模型剪枝因果推断可解释性审计推荐理由:MoE 模型剪枝的常用假设被实验证伪了——做模型压缩或可解释性研究的团队,建议重新审视你的专家选择策略,别再依赖路由统计指标。原文
12:05AI Will@FinanceYF5精选ZEDA是一种针对混合专家模型(MoE)的后训练方法,通过自蒸馏技术让模型学会在推理时跳过半数专家,从而大幅降低计算成本。与传统的剪枝不同,ZEDA赋予模型“算力预算意识”,使其能根据每个token的重要性动态决定是否投入计算资源。该方法在保持性能的同时显著提升效率,为大规模MoE模型的部署提供了新思路。论文已发布在arXiv上。论文MoE/混合专家模型压缩/加速自蒸馏算力优化ZEDA推荐理由:做MoE模型部署或推理优化的团队,ZEDA直接解决了算力浪费问题——跳过一半专家还能保持效果,值得一试。原文