全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:44

13:44

arXiv cs.LG@Mohammed Bouri, Mohammed Erradi, Adnane Saoud

自然语言处理模型易受词替换攻击，现有防御主要关注一阶敏感性（梯度），但忽略了曲率（梯度变化率）的影响。本文提出S-GBT（平滑增长界张量），一种二阶方法，通过逐元素约束Hessian矩阵并加入正则化项，在训练中最小化这些界，从而获得更紧的认证鲁棒性。该方法适用于LSTM和CNN架构，在多个基准数据集上，结合一阶和二阶正则化使认证鲁棒准确率提升高达23.4%，同时保持干净准确率竞争力。研究表明，同时控制梯度及其变化是构建更鲁棒模型的有前景方向。

论文词替换攻击认证鲁棒性二阶优化 LSTM CNN

推荐理由：NLP安全研究者终于有了兼顾梯度与曲率的防御方法——S-GBT在词替换攻击下将认证鲁棒准确率提升23.4%，做文本对抗防御的团队值得关注。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月18日

12:09

12:09

arXiv cs.AI@Yishun Lu, Wes Armour

精选

多模态自回归模型在图像生成和文本理解联合训练时，存在模态竞争导致优化不稳定、大batch训练受限的问题。研究发现AdamW等一阶优化器对跨模态梯度异质性敏感，而二阶预条件方法（如SOAP）能提供更稳定的对齐基础。作者提出ML-FOP-SOAP框架，通过Fisher正交投影抑制方差引起的模态冲突，并引入分层折叠策略降低计算开销。在Janus和Emu3模型上，该方法在batch size 8192下训练稳定，样本效率提升1.4倍，训练速度提升1.5倍。

论文多模态模型优化器二阶优化模态竞争大规模训练

推荐理由：多模态模型训练中模态竞争是常见痛点，做多模态预训练或大batch训练的团队可以直接参考这个二阶优化方案，能显著提升训练效率和稳定性。

10:36

10:36

arXiv cs.LG@Yishun Lu, Junhao Zhang, Zeyu Yang, Wes Armour

精选72°

二阶优化方法能提升大模型训练效率，但计算和存储开销大。Asteria 是一个运行时系统，通过将优化器状态动态分配到 GPU、CPU 和 NVMe 存储，并异步执行逆根计算，解决了这一瓶颈。在单 GPU 的 DGX Spark 上，它支持 1B 参数模型的二阶训练；在多节点 GH200 系统上，它降低了 7B 模型的开销和延迟，加速收敛。研究表明，二阶优化实用化的关键在于运行时层面的状态管理和同步。

论文大模型训练二阶优化运行时系统分布式训练 Asteria

推荐理由：Asteria 让二阶优化从理论走向实用，做大模型训练的团队可以大幅降低显存压力，同时保持收敛速度优势，值得关注其开源进展。