近年来,“进化”概念在人工智能领域逐渐从隐喻走向实际算法。与传统基于梯度反向传播的深度学习不同,进化策略(Evolution Strategies, ES)通过模拟自然选择中的变异与重组来优化模型参数,具有不依赖可微性、适合稀疏奖励等优势。近期,多个团队将进化思想与大规模神经网络结合,探索高效训练新路径。
NVIDIA 提出的 EGGROLL 方法将进化策略扩展至十亿参数规模,证明无需反向传播即可有效训练。相关工作题为 NVIDIA 证明 AI 学习无需反向传播:EGGROLL 扩展进化策略至十亿参数,展示了进化优化在大模型上的可行性。
另一方面,百川智能发布 SPAR 方法,采用分阶段强化学习减少大模型幻觉,其核心思路是通过进化论式的逐步优胜劣汰调整策略,改善模型可靠性。详见 BaichuanAI 发布 SPAR 强化学习新方法:分阶段优化减少幻觉。
OpenAI 则从更宏观角度讨论了大型语言模型如何驱动进化搜索过程,将模型本身作为“进化引擎”。相关博客 大模型驱动进化 提出,LLM 可以辅助生成变异和评估适应度,加速算法发现。
当前焦点在于进化策略与梯度方法之间的权衡:进化策略无需梯度,但计算成本较高;而梯度下降高效但结构偏好可能限制探索深度。未来观察点包括:1)进化策略能否在更大规模模型上达到与反向传播相当的效率;2)结合强化学习与大模型的进化式训练是否成为通用范式;3)进化思想在非可微领域(如架构搜索、游戏策略)的应用扩展。