精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

12:34

arXiv cs.LG@Andries Rosseau, Robert Müller, Ann Nowé

精选

深度神经网络在非平稳环境下的持续训练常导致可塑性逐渐丧失，限制进一步学习。本文首次将可塑性与经验神经正切核联系起来，并识别出动态等距性（各层雅可比奇异值接近1）是保持持续学习可塑性的关键机制。作者重新审视了一类几乎处处等距且保持通用Lipschitz函数逼近能力的网络，证明近动态等距性与表达性非线性表示兼容。针对通用架构，提出了高效的等距促进正则化方案，并发现其能重新激活休眠的ReLU单元。基于此，开发了AdamO优化器，将等距正则化与梯度更新解耦。在多个持续学习基准上，该方法一致匹配或超越现有方法。

论文持续学习可塑性动态等距性优化器 AdamO

推荐理由：持续学习中的可塑性丧失是困扰AI训练的核心难题，本文从理论到实践给出了新解法——做持续学习、强化学习或终身学习的开发者，值得关注这个等距性视角。

原文

12:26

arXiv cs.LG@Brian Coyle, Snehal Raj, Virag Umathe, El Amine Cherrat, Elham Kashefi

精选

训练参数化量子电路（PQC）时，梯度估计的测量成本是主要瓶颈，传统参数平移规则的成本随参数数量线性增长。本文提出基于前向自动微分的梯度估计框架，通过平均可调数量的随机方向导数获得无偏梯度，并统一了SPSA、随机坐标下降和参数平移规则。在此框架下，作者推导出QUIVER（量子迭代V自适应估计规则）优化器，实现最小测量成本分配。数值实验表明，前向梯度在训练含60量子比特、1770参数的量子神经网络时，效率比参数平移规则高出数个数量级。QUIVER在量子近似优化算法和变分量子本征求解器任务上，也优于iCANS和gCANS等测量节俭优化器。

论文量子机器学习参数化量子电路梯度估计 QUIVER 优化器

推荐理由：量子机器学习团队终于有了一个能大幅降低测量成本的梯度估计框架——QUIVER在60量子比特规模上效率提升数个数量级，做量子电路优化的研究者可以直接用。

原文

11:02

arXiv cs.AI@Tianyu Ruan, Fengzhuo Zhang, Shuche Wang, Shihua Zhang

精选72°

Muon 作为预训练大语言模型和视觉分类器的新兴优化器，其效率优势已超过 Adam 和 SGD，但特征学习优势尚不明确。本文通过鲁棒性和迁移性视角研究 Muon 的特征学习优势：在损坏图像和文本上评估预训练模型，发现 Muon 学到的特征比 Adam 和 SGD 更鲁棒，且这种优势体现在更大的 logit 边际上。通过下游任务的线性分类器或微调，Muon 的特征迁移效果更好，这得益于隐藏状态的有效秩更高。在含多组件的分类问题中，论文从理论上证明了 Muon 能获得更大边际和更高有效秩。

论文 Muon 优化器鲁棒性迁移学习特征学习

推荐理由：Muon 优化器在鲁棒性和迁移性上全面超越 Adam，做预训练或迁移学习的团队值得关注，尤其是需要模型对噪声和下游任务更鲁棒的场景。

原文

6月5日

12:08

arXiv cs.AI@Senmiao Wang, Tiantian Fang, Haoran Zhang, Yushun Zhang, Kunxiang Zhao, Alex Schwing, Ruoyu Sun

精选

研究人员提出了一种名为PC Layer（Preconditioning Layer）的权重参数化方法，通过在训练过程中对权重矩阵进行低阶多项式预处理，稳定其奇异值谱，从而改善大型语言模型（LLM）的预训练效果。该方法与AdamW和Muon优化器兼容，在Llama-1B模型上验证了其优于标准Transformer架构。训练后，预处理权重可合并回原始架构，不增加推理开销。理论证明，均匀限制每层奇异值能确保梯度下降在深层线性网络中收敛到全局最小值。代码已开源。

论文预训练权重预处理奇异值谱 Llama 优化器

推荐理由：这项研究解决了LLM训练中权重矩阵病态条件数导致的收敛不稳定问题，做预训练优化的团队可以直接在Llama等模型上尝试，无需额外推理成本。

原文

11:56

arXiv cs.AI@Thomas T. Zhang, Alok Shah, Yifei Zhang, Vincent Zhang, Nikolai Matni, Max Simchowitz

精选

论文提出一种名为双预处理（DoPr）的新优化范式，专门解决深度学习模型在部署时因自身预测滚动（如自回归语言模型、流生成模型、机器人策略学习）导致的误差累积问题。DoPr 结合梯度预处理（如 Adam、Muon）和激活预处理（如 KFAC），能直接提升下游任务性能（如成功率、生成质量），而不一定改善验证损失。这挑战了传统以验证损失为优化目标的评估方式，为训练-测试不匹配问题提供了新的优化维度。实验表明，DoPr 在多种测试时反馈（TTF）场景中作为即插即用模块有效。

论文优化器测试时反馈误差累积 DoPr 深度学习

推荐理由：DoPr 解决了训练和部署性能不一致的痛点，做自回归模型、流生成或机器人学习的团队可以直接尝试这个即插即用优化器，可能会发现验证损失没变但实际效果提升。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月21日

10:22

arXiv cs.LG@Tom Jacobs, Rohan Jain, Rebekka Burkholz

精选

HORST是一种新型优化器，通过组合自适应优化器的L∞稳定性和L1稀疏偏置，解决了稀疏Transformer训练中稳定性和稀疏性难以兼得的问题。它利用非交换算子组合优化几何，基于双曲镜像映射实现鲁棒稀疏训练。实验表明，HORST在视觉和语言任务的Transformer稀疏训练中，在所有稀疏度水平上均显著优于AdamW基线，尤其在高稀疏度下提升巨大。这项工作为高效稀疏模型训练提供了新思路。

论文稀疏训练优化器 Transformer HORST 双曲几何

推荐理由：做稀疏模型训练或Transformer优化的研究者，HORST直接解决了AdamW在高稀疏度下效果差的问题，值得在实验中尝试替换优化器。

原文

5月20日

10:11

arXiv cs.AI@Thomas Massena, Corentin Friedrich, Mathieu Serrurier

精选

这篇论文提出了一种数据驱动的优化器设计方法，能够根据梯度与激活统计信息动态选择每层神经网络的最优更新几何结构，在SGD和Muon之间自适应插值。该方法基于单步随机特征回归代理模型推导出闭式准则，并整合参数级预处理，可恢复SGD、Muon、Adam和MuAdam作为特例。通过高效计算策略，仅增加约3%的运行开销，在三种训练场景中与Muon和AdamW的最佳性能持平或更优。这项工作为超越静态几何的优化器设计开辟了新路径。

论文优化器自适应几何 Muon SGD Adam

推荐理由：这篇论文解决了优化器几何结构固定、无法适应问题几何的问题，做深度学习训练和优化器研究的开发者可以直接参考其自适应方法，有望提升模型训练效率。

原文

5月18日

12:09

arXiv cs.AI@Yishun Lu, Wes Armour

精选

多模态自回归模型在图像生成和文本理解联合训练时，存在模态竞争导致优化不稳定、大batch训练受限的问题。研究发现AdamW等一阶优化器对跨模态梯度异质性敏感，而二阶预条件方法（如SOAP）能提供更稳定的对齐基础。作者提出ML-FOP-SOAP框架，通过Fisher正交投影抑制方差引起的模态冲突，并引入分层折叠策略降低计算开销。在Janus和Emu3模型上，该方法在batch size 8192下训练稳定，样本效率提升1.4倍，训练速度提升1.5倍。

论文多模态模型优化器二阶优化模态竞争大规模训练

推荐理由：多模态模型训练中模态竞争是常见痛点，做多模态预训练或大batch训练的团队可以直接参考这个二阶优化方案，能显著提升训练效率和稳定性。

原文

5月13日

19:12

arXiv cs.LG@Kexuan Shi, Hanxuan Li, Zeju Qiu, Yandong Wen, Simon Buchholz, Weiyang Liu

精选

Pion 是一种用于大语言模型训练的新型优化器，通过左右正交变换更新权重矩阵，在整个训练过程中保持其奇异值不变。与 Adam 和 Muon 等加法优化器不同，Pion 在固定权重矩阵谱范数的同时调节其几何结构，提供了一种稳定的优化机制。实验表明，Pion 在 LLM 预训练和微调中均能作为标准优化器的稳定且有竞争力的替代方案。

论文优化器大语言模型谱保持正交变换 Pion

推荐理由：Pion 解决了传统优化器在训练中破坏权重矩阵谱结构的问题，做 LLM 训练的研究者和工程师值得关注，尤其适合追求训练稳定性和模型质量的团队。

原文