Tensorion：Muon优化器的张量感知泛化

精选理由

想优化张量参数？这篇论文把Muon优雅地推广到高阶张量，实验比Adam更稳健。

AI 摘要

Muon优化器通过谱范数约束执行最速下降，但仅适用于矩阵。Tensorion将这一方法扩展到高阶张量，基于线性最小化预言机（LMO）在张量范数球上进行优化。其LMO通过自适应选择展开矩阵可高效计算，且当限制为二阶张量时精确恢复Muon。在张量计算机视觉任务中，Tensorion相比Adam和现有张量感知基线展现出更优的收敛行为与更稳定的梯度更新。

AI 翻译 · 中文

arXiv cs.LGCommon first-order optimizers, such as Adam, implicitly treat each parameter block as an unstructured vector, which disregards the multilinear weight structure present in many modern machine learning models. Recent work …

阅读原文