Untied Ulysses 让 Llama 3B 在单节点训练 3M 上下文

精选理由

长上下文训练一直是显存大户，Untied Ulysses 让单节点就能跑 3M token，做 LLM 训练和推理优化的团队值得关注，能省下不少 GPU 预算。

AI 摘要

Together AI 团队提出 Untied Ulysses 方法，解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时，仅模型参数就会耗尽显存，无法支持 3M token 的上下文长度。新方法通过优化注意力机制，在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行，降低了硬件门槛。

AI 翻译 · 中文

Together AITraining a Llama 3B model with a 3M token context on a single 8xH100 node fails because model parameters alone exhaust GPU memory. @m_ryabinin explains how Untied Ulysses, his team's latest research, pushes past that wal…

查看原推