精选理由
这项研究打破了深度学习十年来的反向传播依赖,做大规模模型训练或非可微分任务(如强化学习、神经架构搜索)的团队可以直接关注 EGGROLL,它可能改变你构建模型的方式。
NVIDIA 与牛津大学联合发表论文,提出 EGGROLL 方法,将进化策略(Evolution Strategies)扩展到十亿参数模型,无需反向传播即可训练。该方法用两个低秩矩阵替代密集随机扰动矩阵,大幅降低内存消耗,达到纯推理吞吐量的 91%。EGGROLL 支持数十万并行变异,可与不可微分组件配合,在推理任务上与 GRPO 竞争。团队还训练了纯 8 位整数循环语言模型 EGG,非线性来自整数溢出裁剪,而非激活函数,预训练时种群规模超过百万。
AI 翻译 · 中文
NVIDIA 与牛津大学联合发表论文,提出 EGGROLL 方法,将进化策略(Evolution Strategies)扩展到十亿参数模型,无需反向传播即可训练。该方法用两个低秩矩阵替代密集随机扰动矩阵,大幅降低内存消耗,达到纯推理吞吐量的 91%。EGGROLL 支持数十万并行变异,可与不可微分组件配合,在推理任务上与 GRPO 竞争。团队还训练了纯 8 位整数循环语言模型 EGG,非线性来自整数溢出裁剪,而非激活函数,预训练时种群规模超过百万。
NVIDIA just proved AI doesn't need backpropagation to learn anymore. Training giant neural networks has meant one thing for a decade. You run backpropagation, compute gradients, and update weights with calculus. A ne…