DoPr 优化器：专为测试时性能设计，而非验证损失

精选理由

DoPr 解决了训练和部署性能不一致的痛点，做自回归模型、流生成或机器人学习的团队可以直接尝试这个即插即用优化器，可能会发现验证损失没变但实际效果提升。

AI 摘要

论文提出一种名为双预处理（DoPr）的新优化范式，专门解决深度学习模型在部署时因自身预测滚动（如自回归语言模型、流生成模型、机器人策略学习）导致的误差累积问题。DoPr 结合梯度预处理（如 Adam、Muon）和激活预处理（如 KFAC），能直接提升下游任务性能（如成功率、生成质量），而不一定改善验证损失。这挑战了传统以验证损失为优化目标的评估方式，为训练-测试不匹配问题提供了新的优化维度。实验表明，DoPr 在多种测试时反馈（TTF）场景中作为即插即用模块有效。

AI 翻译 · 中文

arXiv cs.AIMany modern applications of deep learning involve training a neural network via a one-step prediction loss (e.g., $L^2$ regression, cross-entropy), but deploy the network by rolling out along its own predictions. Key exa…

阅读原文