论文精选72°

Asteria:运行时编排二阶优化,让大模型训练更高效

Runtime-Orchestrated Second-Order Optimization for Scalable LLM Training

精选理由

Asteria 让二阶优化从理论走向实用,做大模型训练的团队可以大幅降低显存压力,同时保持收敛速度优势,值得关注其开源进展。

AI 摘要

二阶优化方法能提升大模型训练效率,但计算和存储开销大。Asteria 是一个运行时系统,通过将优化器状态动态分配到 GPU、CPU 和 NVMe 存储,并异步执行逆根计算,解决了这一瓶颈。在单 GPU 的 DGX Spark 上,它支持 1B 参数模型的二阶训练;在多节点 GH200 系统上,它降低了 7B 模型的开销和延迟,加速收敛。研究表明,二阶优化实用化的关键在于运行时层面的状态管理和同步。

AI 翻译 · 中文

二阶优化方法能提升大模型训练效率,但计算和存储开销大。Asteria 是一个运行时系统,通过将优化器状态动态分配到 GPU、CPU 和 NVMe 存储,并异步执行逆根计算,解决了这一瓶颈。在单 GPU 的 DGX Spark 上,它支持 1B 参数模型的二阶训练;在多节点 GH200 系统上,它降低了 7B 模型的开销和延迟,加速收敛。研究表明,二阶优化实用化的关键在于运行时层面的状态管理和同步。

arXiv cs.LGSecond-order methods offer an attractive path toward more sample-efficient LLM training, but their practical use is often blocked by the systems cost of maintaining and updating large matrix-based optimizer states. We in