13:44arXiv cs.LG@Mohammed Bouri, Mohammed Erradi, Adnane Saoud自然语言处理模型易受词替换攻击,现有防御主要关注一阶敏感性(梯度),但忽略了曲率(梯度变化率)的影响。本文提出S-GBT(平滑增长界张量),一种二阶方法,通过逐元素约束Hessian矩阵并加入正则化项,在训练中最小化这些界,从而获得更紧的认证鲁棒性。该方法适用于LSTM和CNN架构,在多个基准数据集上,结合一阶和二阶正则化使认证鲁棒准确率提升高达23.4%,同时保持干净准确率竞争力。研究表明,同时控制梯度及其变化是构建更鲁棒模型的有前景方向。论文词替换攻击认证鲁棒性二阶优化LSTMCNN推荐理由:NLP安全研究者终于有了兼顾梯度与曲率的防御方法——S-GBT在词替换攻击下将认证鲁棒准确率提升23.4%,做文本对抗防御的团队值得关注。原文
12:09arXiv cs.AI@Yishun Lu, Wes Armour精选多模态自回归模型在图像生成和文本理解联合训练时,存在模态竞争导致优化不稳定、大batch训练受限的问题。研究发现AdamW等一阶优化器对跨模态梯度异质性敏感,而二阶预条件方法(如SOAP)能提供更稳定的对齐基础。作者提出ML-FOP-SOAP框架,通过Fisher正交投影抑制方差引起的模态冲突,并引入分层折叠策略降低计算开销。在Janus和Emu3模型上,该方法在batch size 8192下训练稳定,样本效率提升1.4倍,训练速度提升1.5倍。论文多模态模型优化器二阶优化模态竞争大规模训练推荐理由:多模态模型训练中模态竞争是常见痛点,做多模态预训练或大batch训练的团队可以直接参考这个二阶优化方案,能显著提升训练效率和稳定性。原文
10:36arXiv cs.LG@Yishun Lu, Junhao Zhang, Zeyu Yang, Wes Armour精选72°二阶优化方法能提升大模型训练效率,但计算和存储开销大。Asteria 是一个运行时系统,通过将优化器状态动态分配到 GPU、CPU 和 NVMe 存储,并异步执行逆根计算,解决了这一瓶颈。在单 GPU 的 DGX Spark 上,它支持 1B 参数模型的二阶训练;在多节点 GH200 系统上,它降低了 7B 模型的开销和延迟,加速收敛。研究表明,二阶优化实用化的关键在于运行时层面的状态管理和同步。论文大模型训练二阶优化运行时系统分布式训练Asteria推荐理由:Asteria 让二阶优化从理论走向实用,做大模型训练的团队可以大幅降低显存压力,同时保持收敛速度优势,值得关注其开源进展。原文