11:02arXiv cs.AI@Tianyu Ruan, Fengzhuo Zhang, Shuche Wang, Shihua Zhang精选72°Muon 作为预训练大语言模型和视觉分类器的新兴优化器,其效率优势已超过 Adam 和 SGD,但特征学习优势尚不明确。本文通过鲁棒性和迁移性视角研究 Muon 的特征学习优势:在损坏图像和文本上评估预训练模型,发现 Muon 学到的特征比 Adam 和 SGD 更鲁棒,且这种优势体现在更大的 logit 边际上。通过下游任务的线性分类器或微调,Muon 的特征迁移效果更好,这得益于隐藏状态的有效秩更高。在含多组件的分类问题中,论文从理论上证明了 Muon 能获得更大边际和更高有效秩。论文Muon优化器鲁棒性迁移学习特征学习推荐理由:Muon 优化器在鲁棒性和迁移性上全面超越 Adam,做预训练或迁移学习的团队值得关注,尤其是需要模型对噪声和下游任务更鲁棒的场景。原文
11:03arXiv cs.LG@George Whittle, Pranav Vaidhyanathan, Juliusz Ziomek, Natalia Ares, Maike A. Osborne精选本文研究了宽神经网络在特征学习机制下的正则化问题,指出梯度流训练隐含的正则化偏好在核机制和特征学习机制中存在根本差异。在核机制中,梯度流自然选择岭回归解,而特征学习机制中岭回归会扭曲网络的归纳偏置,尤其损害预训练模型。作者通过公理化方法定义了规范正则化器,并利用黎曼几何推导出特征学习机制下的测地岭正则化。作为实用替代,提出了弧岭正则化,揭示了早停与规范正则化之间的深层联系。实验在图像处理和NLP迁移学习任务上验证了理论。论文正则化特征学习黎曼几何核机制深度学习理论推荐理由:这篇论文解决了特征学习网络缺乏规范正则化理论的痛点,做深度学习理论和正则化研究的学者值得细读——它用黎曼几何统一了核机制和特征学习机制,并给出了可落地的弧岭正则化方案。原文