Asteria：运行时编排二阶优化，让大模型训练更高效

精选理由

Asteria 让二阶优化从理论走向实用，做大模型训练的团队可以大幅降低显存压力，同时保持收敛速度优势，值得关注其开源进展。

AI 摘要

二阶优化方法能提升大模型训练效率，但计算和存储开销大。Asteria 是一个运行时系统，通过将优化器状态动态分配到 GPU、CPU 和 NVMe 存储，并异步执行逆根计算，解决了这一瓶颈。在单 GPU 的 DGX Spark 上，它支持 1B 参数模型的二阶训练；在多节点 GH200 系统上，它降低了 7B 模型的开销和延迟，加速收敛。研究表明，二阶优化实用化的关键在于运行时层面的状态管理和同步。

AI 翻译 · 中文

arXiv cs.LGSecond-order methods offer an attractive path toward more sample-efficient LLM training, but their practical use is often blocked by the systems cost of maintaining and updating large matrix-based optimizer states. We in…

阅读原文