LLM零阶微调本质是推理负载，vLLM实现8倍加速

精选理由

做LLM微调优化的团队终于可以省下GPU时间了——把ZO微调当推理跑，vLLM直接提速8倍，建议做低成本微调的人点开看看实现细节。

AI 摘要

研究发现，大语言模型的零阶（ZO）微调本质上是推理密集型负载，而非传统训练。现有实现将ZO算法运行在训练循环中，导致工作负载与运行时的不匹配。研究者通过将ZO微调的重复评分阶段部署在推理运行时（如vLLM）上，在OPT-13B模型上实现了8.13倍加速，且精度几乎无损。该方法在多个模型规模下获得2.34-7.72倍加速，并支持MeZO风格的高秩分解实验。这项工作为将轻量级适配作为推理类负载调度提供了实用路径。

AI 翻译 · 中文

arXiv cs.LGZeroth-order (ZO) fine-tuning is attractive for large language models because it replaces backpropagation with forward objective evaluations. Existing implementations nevertheless execute ZO algorithms inside conventiona…

阅读原文