精选理由
这篇论文发现,调好预处理参数,线性模型就能干翻Transformer等复杂模型,不用堆算力。
研究使用Ridge回归作为测试床,在8个标准基准上搜索上下文长度、局部归一化、正则化和数据增强的最优超参数。发现最佳回溯窗口长度与预测时序高度相关,且非单调,幂律指数从ETTm2的+0.46到Exchange和Traffic的-0.19。在大多数数据集-预测时距组合上,优化后的线性模型超越了先前的线性预测器,并超过Transformer、MLP和CNN基线在6/8个基准上的表现。优化超参数还可作为数据诊断工具,揭示大型模型隐式学习的结构。
AI 翻译 · 中文
研究使用Ridge回归作为测试床,在8个标准基准上搜索上下文长度、局部归一化、正则化和数据增强的最优超参数。发现最佳回溯窗口长度与预测时序高度相关,且非单调,幂律指数从ETTm2的+0.46到Exchange和Traffic的-0.19。在大多数数据集-预测时距组合上,优化后的线性模型超越了先前的线性预测器,并超过Transformer、MLP和CNN基线在6/8个基准上的表现。优化超参数还可作为数据诊断工具,揭示大型模型隐式学习的结构。
Time-series forecasting research has been moving steadily toward larger architectures, from specialized transformers to general-purpose foundation models, on the assumption that capacity is what unlocks accuracy. We take…