Tensorion:Muon优化器的张量感知泛化

Tensorion: A Tensor-Aware Generalization of the Muon Optimizer

精选理由

想优化张量参数?这篇论文把Muon优雅地推广到高阶张量,实验比Adam更稳健。

AI 摘要

Muon优化器通过谱范数约束执行最速下降,但仅适用于矩阵。Tensorion将这一方法扩展到高阶张量,基于线性最小化预言机(LMO)在张量范数球上进行优化。其LMO通过自适应选择展开矩阵可高效计算,且当限制为二阶张量时精确恢复Muon。在张量计算机视觉任务中,Tensorion相比Adam和现有张量感知基线展现出更优的收敛行为与更稳定的梯度更新。

AI 翻译 · 中文

Muon优化器通过谱范数约束执行最速下降,但仅适用于矩阵。Tensorion将这一方法扩展到高阶张量,基于线性最小化预言机(LMO)在张量范数球上进行优化。其LMO通过自适应选择展开矩阵可高效计算,且当限制为二阶张量时精确恢复Muon。在张量计算机视觉任务中,Tensorion相比Adam和现有张量感知基线展现出更优的收敛行为与更稳定的梯度更新。

arXiv cs.LGCommon first-order optimizers, such as Adam, implicitly treat each parameter block as an unstructured vector, which disregards the multilinear weight structure present in many modern machine learning models. Recent work