论文精选

DBES:首个系统评估MoE专家专业化的基准与指标套件

DBES: A Systematic Benchmark and Metric Suite for Evaluating Expert Specialization in Large-Scale MoEs

精选理由

MoE模型的路由机制一直是个黑盒,DBES让开发者能真正量化专家是否在干专长的事。做MoE训练或微调的团队,可以用这套指标直接优化后训练效率,省资源又提效果,值得一试。

AI 摘要

DBES 是一个针对混合专家模型(MoE)中专家专业化程度的系统评估框架,包含多领域基准和五个理论驱动的指标:路由专业化、归一化有效秩、领域隔离度、路由刚度评分和N-gram专家度。研究发现不同模型呈现不同专业化范式:Qwen系列表现出模块化专业化和高领域隔离,而DeepSeek和GLM采用分布式协作。更重要的是,通过DBES识别高专业化专家路径进行领域特定后训练,仅用15%的训练资源即可实现66%到94.48%的专业领域性能提升。这项工作首次提供了独立于准确率指标的专家专业化评估方法,为下一代MoE系统的设计和后训练优化提供了关键见解。

AI 翻译 · 中文

DBES 是一个针对混合专家模型(MoE)中专家专业化程度的系统评估框架,包含多领域基准和五个理论驱动的指标:路由专业化、归一化有效秩、领域隔离度、路由刚度评分和N-gram专家度。研究发现不同模型呈现不同专业化范式:Qwen系列表现出模块化专业化和高领域隔离,而DeepSeek和GLM采用分布式协作。更重要的是,通过DBES识别高专业化专家路径进行领域特定后训练,仅用15%的训练资源即可实现66%到94.48%的专业领域性能提升。这项工作首次提供了独立于准确率指标的专家专业化评估方法,为下一代MoE系统的设计和后训练优化提供了关键见解。

arXiv: DeepSeekExpert specialization in Mixture-of-Experts (MoE) models remains poorly understood, with traditional evaluations conflating architectural load-balancing with functional specialization. We introduce DBES, a comprehensive