EngGPT2-16B-A3B基准:意大利语MoE模型表现优于同类

精选理由

该评测展示了意大利本土LLM的最新进展,对关注多语言模型(尤其是意大利语)的研究者和开发者具有参考价值,也反映了MoE架构在中等参数规模下的实际性能水平。

AI 摘要

意大利ENGINEERING公司发布了EngGPT2MoE-16B-A3B语言模型,采用16B参数MoE架构(3B活跃参数)。在国际基准测试(ARC-Challenge、GSM8K、MMLU等)中,该模型全面优于FastwebMIIA-7B、Minerva-7B等意大利本土模型。与同规模MoE模型相比,EngGPT2在多数指标上超过DeepSeek-MoE-16B-Chat和Moonlight-16B-A3B,但落后于GPT-OSS-20B。在意大利语数据集ITALIC上,模型表现仅次于Velvet-14B。研究认为该模型是意大利原生大语言模型的重要进步。

AI 翻译 · 中文

意大利ENGINEERING公司发布了EngGPT2MoE-16B-A3B语言模型,采用16B参数MoE架构(3B活跃参数)。在国际基准测试(ARC-Challenge、GSM8K、MMLU等)中,该模型全面优于FastwebMIIA-7B、Minerva-7B等意大利本土模型。与同规模MoE模型相比,EngGPT2在多数指标上超过DeepSeek-MoE-16B-Chat和Moonlight-16B-A3B,但落后于GPT-OSS-20B。在意大利语数据集ITALIC上,模型表现仅次于Velvet-14B。研究认为该模型是意大利原生大语言模型的重要进步。