LightningLM 0.1V：单节点8卡训练120B稀疏MoE

精选理由

这篇论文解决了大模型训练资源门槛高的问题——单节点8卡就能训120B模型，做MoE和模型扩展的团队可以直接参考其状态保持原则和TQP策略，省下大量硬件成本。

AI 摘要

该论文报告了在单个8GPU节点上端到端训练千亿参数稀疏混合专家模型的方法。LightningLM 0.1V 是一个基于循环骨干的语言模型家族，从小型稠密种子模型逐步扩展至120B参数、460个路由专家（top-12路由）。通过状态保持扩展策略，每个更大模型从小模型的训练权重生长而来，活跃参数从1.78B单调增长至5.93B。关键创新包括：可逆循环栈使激活内存不随模型增长而增加；状态保持扩展原则确保各阶段扩展不失败；单节点经济策略TQP通过量化基专家权重和训练低秩适配器，将优化器状态从100B+压缩至2.26B参数。模型家族、分词器和训练代码均已开源。

AI 翻译 · 中文

arXiv cs.LGThis paper reports on training a hundred-billion-parameter sparse mixture of experts on a single eight-GPU node, end to end. LightningLM 0.1V is a recurrence-backbone language model family grown in four stages from a sma…

阅读原文