21:56vLLM@vllm_projectKimi 发布 K2.7-Code,一个专注于编程的智能体模型,基于 K2.6 构建。该模型采用 1T 参数的混合专家架构,每次推理仅激活 32B 参数,配备 MLA 注意力机制和 256K 上下文窗口。相比 K2.6,K2.7-Code 的思考 token 减少了约 30%,推理更高效。该模型已获 vLLM 支持,可直接复用 K2.6 的部署配置,降低了迁移成本。AI模型编程智能体MoE/混合专家Kimi推理模型vLLM推荐理由:编程智能体模型终于有了更高效的选择——K2.7-Code 在保持 1T 参数规模的同时,将激活参数压缩到 32B,做代码生成和推理的开发者可以直接在 vLLM 上复用现有部署,值得一试。原文
12:05AI Will@FinanceYF5精选ZEDA是一种针对混合专家模型(MoE)的后训练方法,通过自蒸馏技术让模型学会在推理时跳过半数专家,从而大幅降低计算成本。与传统的剪枝不同,ZEDA赋予模型“算力预算意识”,使其能根据每个token的重要性动态决定是否投入计算资源。该方法在保持性能的同时显著提升效率,为大规模MoE模型的部署提供了新思路。论文已发布在arXiv上。论文MoE/混合专家模型压缩/加速自蒸馏算力优化ZEDA推荐理由:做MoE模型部署或推理优化的团队,ZEDA直接解决了算力浪费问题——跳过一半专家还能保持效果,值得一试。原文