精选理由
DoPr 解决了训练和部署性能不一致的痛点,做自回归模型、流生成或机器人学习的团队可以直接尝试这个即插即用优化器,可能会发现验证损失没变但实际效果提升。
论文提出一种名为双预处理(DoPr)的新优化范式,专门解决深度学习模型在部署时因自身预测滚动(如自回归语言模型、流生成模型、机器人策略学习)导致的误差累积问题。DoPr 结合梯度预处理(如 Adam、Muon)和激活预处理(如 KFAC),能直接提升下游任务性能(如成功率、生成质量),而不一定改善验证损失。这挑战了传统以验证损失为优化目标的评估方式,为训练-测试不匹配问题提供了新的优化维度。实验表明,DoPr 在多种测试时反馈(TTF)场景中作为即插即用模块有效。
AI 翻译 · 中文
论文提出一种名为双预处理(DoPr)的新优化范式,专门解决深度学习模型在部署时因自身预测滚动(如自回归语言模型、流生成模型、机器人策略学习)导致的误差累积问题。DoPr 结合梯度预处理(如 Adam、Muon)和激活预处理(如 KFAC),能直接提升下游任务性能(如成功率、生成质量),而不一定改善验证损失。这挑战了传统以验证损失为优化目标的评估方式,为训练-测试不匹配问题提供了新的优化维度。实验表明,DoPr 在多种测试时反馈(TTF)场景中作为即插即用模块有效。
Many modern applications of deep learning involve training a neural network via a one-step prediction loss (e.g., $L^2$ regression, cross-entropy), but deploy the network by rolling out along its own predictions. Key exa…