论文精选72°

LightningLM 0.1V:单节点8卡训练120B稀疏MoE

Reversible Foundations: Training a 120B Sparse MoE through State-Preserving Scaling

精选理由

这篇论文解决了大模型训练资源门槛高的问题——单节点8卡就能训120B模型,做MoE和模型扩展的团队可以直接参考其状态保持原则和TQP策略,省下大量硬件成本。

AI 摘要

该论文报告了在单个8GPU节点上端到端训练千亿参数稀疏混合专家模型的方法。LightningLM 0.1V 是一个基于循环骨干的语言模型家族,从小型稠密种子模型逐步扩展至120B参数、460个路由专家(top-12路由)。通过状态保持扩展策略,每个更大模型从小模型的训练权重生长而来,活跃参数从1.78B单调增长至5.93B。关键创新包括:可逆循环栈使激活内存不随模型增长而增加;状态保持扩展原则确保各阶段扩展不失败;单节点经济策略TQP通过量化基专家权重和训练低秩适配器,将优化器状态从100B+压缩至2.26B参数。模型家族、分词器和训练代码均已开源。

AI 翻译 · 中文

该论文报告了在单个8GPU节点上端到端训练千亿参数稀疏混合专家模型的方法。LightningLM 0.1V 是一个基于循环骨干的语言模型家族,从小型稠密种子模型逐步扩展至120B参数、460个路由专家(top-12路由)。通过状态保持扩展策略,每个更大模型从小模型的训练权重生长而来,活跃参数从1.78B单调增长至5.93B。关键创新包括:可逆循环栈使激活内存不随模型增长而增加;状态保持扩展原则确保各阶段扩展不失败;单节点经济策略TQP通过量化基专家权重和训练低秩适配器,将优化器状态从100B+压缩至2.26B参数。模型家族、分词器和训练代码均已开源。

arXiv cs.LGThis paper reports on training a hundred-billion-parameter sparse mixture of experts on a single eight-GPU node, end to end. LightningLM 0.1V is a recurrence-backbone language model family grown in four stages from a sma