全部 AI 动态 · AI 热点

6月30日

11:15

arXiv cs.LG@Bertram Taetz, Hugo Albuquerque Cosme da Silva, Gabriele Bleser-Taetz

本研究提出基于冻结大语言模型和LoRA变体的持续学习方法，使运动-语言智能体能在不遗忘旧知识的情况下增量学习新动作概念。采用混合专家架构和基于自编码器的路由器在推理时选择任务特定专家，无需任务标签。在从HumanML3D导出的5任务基准上，该方法在运动到文本（M2T)和文本到运动（T2M）两个方向上实现了近乎零遗忘，且保持高质量生成与描述。实验表明硬专家选择在质量指标上显著优于软专家混合，专家隔离对持续学习性能至关重要。

论文运动-语言智能体持续学习 LoRA 混合专家 HumanML3D

推荐理由：这篇论文提出用LoRA和混合专家架构让智能体不断学新动作而不忘旧的，5任务基准上几乎零遗忘，值得做持续学习或运动生成的看看。

原文

11:01

arXiv cs.LG@Naeem Paeedeh, Mahardhika Pratama, Wolfgang Mayer, Mukesh Prasad, Weiping Ding, Yew-Soon Ong

本文定义了少样本领域增量学习（FSDIL）问题，针对传统方法在数据极少时过拟合的痛点。提出持续视觉-语言整合（CVLC）算法，关键思想是在基领域预留隐空间和双融合投影（DCP）参数高效微调。通过LLM生成多模板和同义词校准视觉与语言原型并融合，再用DCP适应新领域。在多个基准上，CVLC相比此前方法提升最高达16%。代码已开源。

论文 FSDIL CVLC Domain Incremental Learning 少样本学习持续学习

推荐理由：这篇论文提出了一个叫FSDIL的新问题和一个叫CVLC的算法，用双融合投影微调视觉语言模型，在少样本领域增量学习上比之前的方法好16%。

原文

6月26日

09:52

arXiv cs.AI@Augustinas Jučas, Yangchen Pan

CIRCLE是一种基于固定双向二维储层特征（BiRC2D）的类增量分类器，使用流式线性判别分析（SLDA）头。它不需要回放、外部预训练或大初始任务。在CIFAR-100、TinyImageNet、ImageNet-Subset和ImageNet-1k数据集上，CIRCLE在10-20任务分割中表现有竞争力，在50、100和500任务分割中大幅超越现有强基线。同时训练速度远快于有回放的方法。消融实验表明，BiRC2D特征提取器、SLDA头和平衡特征/预测集成各自贡献了性能。

论文 CIRCLE BiRC2D SLDA 持续学习类增量学习

推荐理由：这篇论文提出CIRCLE方法：用固定储层特征做持续学习，无需回放，在长任务序列上比现有方法更快更准确。

原文

6月23日

13:02

arXiv cs.AI@Ulas Berk Karli, Tesca Fitzgerald

论文提出RECALL方法，用于视觉-语言-动作（VLA）模型的主动持续学习。与被动模仿学习相比，不确定性引导的数据收集使微调效率提升30%以上。但仅训练恢复数据会导致灾难性遗忘，在OpenVLA模型上丢失20%的旧任务性能。评估了重放混合和弹性权重巩固（EWC）两种持续学习技术，发现可塑性与记忆保留之间存在权衡。实验在3个机器人操作任务上进行，表明不确定性引导的恢复演示能提升适应效率，但如何平衡新旧知识仍是开放挑战。

论文 VLA RECALL 主动学习持续学习机器人

推荐理由：这篇论文研究了怎么让机器人在学新任务时不忘旧技能，用不确定性主动挑数据微调VLA模型，比被动收集更高效，还试了两种防遗忘方法，挺实在的。

原文

6月17日

10:19

arXiv cs.LG@Kathrin Korte, Christian Medeiros Adriano, Joachim Winther Pedersen, Eleni Nisioti, Sebastian Risi

该研究在A-B-A范式下比较了任务划分循环网络与单网络基线在持续学习中的表现。高维“lazy”状态中，两种架构性能相近，模块化收益小。低维“rich”状态中，模块化网络形成梯度任务特异子空间，对相似任务重叠、中等相似对齐、不相似分离，实现更组合化的组织。结果表明，初始化尺度诱导的表征维度是决定模块化结构是否有利于持续学习的关键因素。

论文持续学习模块化表征维度 A-B-A范式循环网络

推荐理由：这篇论文用实验告诉你：模块化在持续学习中不是万能的，维度低时才有用，帮你判断何时该用模块化设计。

原文

09:44

arXiv cs.AI@Davide Domini, Gianluca Aguzzi, Lorenzo Pellegrini, Mirko Viroli, Lukas Esterle

研究者提出C2FL，一种完全分布式的联邦学习方法。节点通过空间聚类自组织成学习组，反映环境地理结构。为应对时间漂移，每个节点结合经验回放与驻留时间感知的自适应平均步骤，逐步融入区域共识。合成实验表明，标准联邦学习策略在空间和时间漂移下准确率下降超过30%，而C2FL恢复至接近集中式训练的性能。

论文 C2FL 联邦学习空间聚类时间漂移持续学习

推荐理由：这篇论文用空间聚类和驻留时间自适应平均，解决了移动场景下联邦学习数据漂移的老大难问题，效果比标准FL好很多。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

09:52

arXiv cs.LG@Weihang Su, Jiacheng Kang, Jingyan Xu, Qingyao Ai, Jianming Long, Hanwen Zhang, Bangde Du, Xinyuan Cao, Min Zhang, Yiqun Liu

论文提出ReGrad（Retrievable Gradients）范式，将梯度视为可检索的知识单元。方法预先离线计算文档特定梯度并存入索引梯度库，推理时仅检索查询相关梯度进行临时权重适应。为解决原始语言建模梯度不适于查询驱动知识使用的问题，引入双层元学习目标重塑梯度为通用适应信号。实验在通用和领域特定设置中表明，ReGrad优于CPT和RAG基线，实现可扩展且可逆的参数化知识注入，不累积权重漂移。

论文 ReGrad CPT RAG 持续学习可检索梯度

推荐理由：这篇论文提出了ReGrad，把梯度当知识存起来，推理时才取用，不破坏原有模型参数，效果比CPT和RAG都好。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

11:23

arXiv cs.LG@Ayushman Trivedi, Bhavika Melwani

该论文挑战了持续学习中“灾难性遗忘即信息破坏”的传统观点，提出遗忘知识其实仍以紧凑形式存在于模型表征中。研究者在Split CIFAR-100上训练ResNet-18，通过引入“恢复子空间维度”指标发现，尽管表征漂移显著，但恢复遗忘知识所需的子空间维度在整个训练过程中保持稳定（均值8.0）。主角度漂移与可恢复性高度相关（r=-0.862），一个简单几何模型能解释82.2%的可恢复性方差。这些结果支持“稳定恢复流形”假说，表明灾难性遗忘本质上是可访问性和流形对齐问题，而非信息丢失。

论文持续学习灾难性遗忘表征几何可恢复性 ResNet-18

推荐理由：这篇论文用几何视角重新定义了灾难性遗忘，做持续学习或模型遗忘研究的开发者会看到新方向——遗忘不是删除，而是藏起来了。建议关注其恢复子空间维度的测量方法，可能启发新的抗遗忘算法。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

12:34

arXiv cs.LG@Andries Rosseau, Robert Müller, Ann Nowé

精选

深度神经网络在非平稳环境下的持续训练常导致可塑性逐渐丧失，限制进一步学习。本文首次将可塑性与经验神经正切核联系起来，并识别出动态等距性（各层雅可比奇异值接近1）是保持持续学习可塑性的关键机制。作者重新审视了一类几乎处处等距且保持通用Lipschitz函数逼近能力的网络，证明近动态等距性与表达性非线性表示兼容。针对通用架构，提出了高效的等距促进正则化方案，并发现其能重新激活休眠的ReLU单元。基于此，开发了AdamO优化器，将等距正则化与梯度更新解耦。在多个持续学习基准上，该方法一致匹配或超越现有方法。

论文持续学习可塑性动态等距性优化器 AdamO

推荐理由：持续学习中的可塑性丧失是困扰AI训练的核心难题，本文从理论到实践给出了新解法——做持续学习、强化学习或终身学习的开发者，值得关注这个等距性视角。

原文

6月8日

11:07

arXiv cs.LG@Ryan Missel, Xiajun Jiang, Linwei Wang

个性化心脏模拟面临模型个性化和计算成本挑战，现有神经代理方法要么侧重高效个性化，要么侧重泛化模型训练。最新研究通过小样本生成建模和元学习实现个性化，但假设训练分布静态且任务标识已知，无法处理临床中顺序到达的未标记数据，否则会灾难性遗忘。本文提出持续元学习框架CoMetaPNS，利用持续贝叶斯高斯混合模型推断数据标识和关系，实现个性化神经代理的持续集成。在合成心脏数据上，该方法在模拟预测、计算可扩展性和抗遗忘方面优于现有基线。

论文持续学习元学习心脏模拟神经代理个性化医疗

推荐理由：心脏模拟领域终于有了能应对临床数据流变化的方案——CoMetaPNS解决了灾难性遗忘问题，做个性化医疗模拟或心脏电生理研究的团队可以直接参考其持续学习框架。

原文

11:00

arXiv cs.LG@Mohammadreza Sadeghi, Sareh Soleimani, Zihan Wang, Narges Armanfard

本文提出无监督持续聚类（UCC）问题，并引入前向-后向知识蒸馏持续聚类方法（FBCC）。该方法通过持续教师网络和轻量级任务特定学生，在无标签且不存储旧数据的情况下，学习新聚类同时保留已有聚类结构。实验表明，FBCC在四个基准数据集上持续优于现有持续学习方法，显著减少灾难性遗忘。这是首个专门针对无监督持续聚类的研究，解决了该领域缺乏聚类特定目标的问题。

论文无监督学习持续学习知识蒸馏聚类灾难性遗忘

推荐理由：做无监督学习和持续学习的团队终于有了聚类场景的专用方案——FBCC 不依赖标签和旧数据就能保持聚类结构，做数据流聚类或隐私敏感场景的开发者可以直接参考实验设置。

原文

10:12

arXiv cs.AI@Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, Ali Jannesari

精选

大型语言模型在持续学习中面临可塑性-稳定性困境，学习新任务常导致旧知识灾难性遗忘。现有方法统一处理参数，无法区分任务特定知识与共享能力。SETA框架通过自适应稀疏子空间分解，将知识分离为任务特定专家和共享专家，利用弹性锚定和路由正则化保护共享知识，统一门控网络自动检索正确专家组合。在LLaMA-2 7B和Qwen3-4B上的实验表明，SETA在多个领域基准上达到或超越现有方法，尤其擅长保留早期任务知识并改善反向迁移。

论文持续学习灾难性遗忘专家混合 LLM 稀疏子空间

推荐理由：SETA解决了LLM持续学习中任务知识冲突的核心痛点，做多任务模型训练或知识迁移的团队可以直接参考其专家分解思路，值得关注其稀疏子空间设计。

原文

6月5日

13:22

arXiv cs.LG@Marius Dragoi, Ioana Pintilie, Alexandra Dragomir, Antonio Barbalau, Florin Brad

精选

TailLoR 是一种基于谱分解的参数高效微调方法，专为持续学习设计。它利用预训练权重的奇异基 U 和 V 作为固定参考框架，学习对奇异值矩阵的低秩更新。通过软谱惩罚抑制与主导奇异方向对齐的更新，减少干扰，同时将细粒度适应引导到高度灵活的长尾谱坐标中。该方法在持续学习场景中有效平衡了旧知识保留与新任务适应。

论文持续学习参数高效微调谱分解低秩更新 TailLoR

推荐理由：持续学习是让模型不断吸收新知识而不遗忘旧知识的关键技术，做模型微调或增量学习的开发者可以关注 TailLoR 如何用谱分解优雅解决灾难性遗忘问题。

原文

6月4日

10:50

arXiv cs.AI@Xiaoyang Jiang, Yanlai Yang, Kenneth A. Norman, Brenden Lake, Mengye Ren

精选

儿童从连续的自我中心经验流中学习词汇，而现有神经网络模型通常对数据进行数百轮随机打乱训练，与真实学习过程不符。研究者提出BabyCL框架，以单次时间顺序处理SAYCam数据集，结合流式视觉表示学习和图像-文本对比目标。BabyCL采用多阶段时间分割和双回放缓冲区，在匹配优化预算下，在SAYCam Labeled-S 4AFC基准上优于流式学习基线，显著缩小了与离线训练的差距。消融实验表明，其增益对时间分割窗口长度和回放缓冲区驱逐规则具有鲁棒性。这项工作表明，在更接近儿童实际体验的训练条件下，有意义的词-指代映射可以涌现。

论文持续学习多模态学习儿童认知对比学习 SAYCam

推荐理由：BabyCL解决了持续学习场景下多模态对齐的难题，做认知科学或持续学习的研究者可以直接参考其双回放缓冲区设计，值得关注。

原文

6月3日

10:45

arXiv cs.LG@Ali Behrouz, Farnoosh Hashemi, Vahab Mirrokni

精选

受人类学习过程启发，研究者提出了一种名为“睡眠”的范式，让大语言模型能够持续学习，将短期脆弱记忆蒸馏为稳定的长期知识。该范式包含两个阶段：记忆巩固（通过知识播种将小模型记忆蒸馏到大模型）和梦境（模型通过强化学习生成合成数据自我改进）。实验证明，该方法在长时任务、持续学习、知识整合和少样本泛化上效果显著。这项工作解决了LLM无法持续更新长期参数的核心痛点，为模型终身学习提供了新思路。

论文持续学习记忆巩固蒸馏强化学习 LLM

推荐理由：做持续学习和模型终身优化的研究者值得关注——它用“睡眠”机制解决了LLM记忆遗忘问题，比传统微调更接近人类学习方式，看完会有启发。

原文

10:24

arXiv cs.AI@Mubarak A. Ojewale, Adriana E. Chis, Jorge M. Cortes-Mendoza, Bernardo Pulido-Gaytan, Horacio Gonzalez-Velez

联邦学习中客户端数据分布随时间漂移会导致模型遗忘，现有方法如Flashback假设分布静止，无法应对时间变化。FlashbackCL通过引入时间衰减标签计数、设备感知重放缓冲区和服务器端核心集筛选，在CIFAR-10上相对Flashback提升6.9%-10.0%，时间遗忘减少68%。在静态CIFAR-100上也提升3.5个点，表明类平衡重放对空间和时间异质性均有正则化效果。

论文联邦学习时间遗忘持续学习类平衡重放 FlashbackCL

推荐理由：联邦学习团队终于有了应对数据漂移的实用方案——FlashbackCL直接替换Flashback即可，做边缘设备或持续学习部署的开发者值得一试。

原文

6月2日

12:04

arXiv cs.AI@Yiheng Shu, Bernal Jiménez Gutiérrez, Saisri Padmaja Jonnalagedda, Yuguang Yao, Huan Sun, Yu Su

语言智能体在单个任务上花费大量推理时间，但跨任务的经验复用不足。现有基准难以严格评估持续学习，多聚焦长上下文检索或简单任务流，缺乏对跨任务关系的分析。本文提出AgentCL框架，通过受控任务流和迁移增益指标，评估智能体能否积累可复用经验、随时间改进并避免干扰。实验表明，受控流比简单流更能区分记忆设计的可塑性，而简单流和保留设置常暴露记忆导致的性能退化。该工作为设计平衡可塑性与稳定复用的记忆系统提供了方向。

论文持续学习智能体评估框架记忆设计语言模型

推荐理由：做智能体持续学习和记忆设计的团队，AgentCL提供了比现有基准更严格的评估方法，能帮你诊断记忆设计在跨任务复用中的真实效果，值得参考。

原文

11:59

arXiv cs.LG@Yu-Cheng Shi, Zhen-Hao Xie, Jun-Tao Tang, Da-Wei Zhou

多模态大语言模型（MLLMs）通过指令微调表现出色，但实际部署需要持续获取新的视觉语言能力，因此多模态持续指令微调（MCIT）至关重要。现有方法常采用稀疏架构（如混合LoRA专家）通过图像-文本相似度路由，但任务响应结构不同时可能共享高度相似的语义，导致路由错误和梯度干扰。ProtoAda提出格式感知的任务原型，将任务分配与路由对齐到语义和输出结构，并通过几何感知方式整合格式兼容的更新，有效重用和优化现有参数。实验表明，ProtoAda在多个基准上表现优异，尤其对答案结构易被顺序微调破坏的任务效果显著。

论文多模态大语言模型持续学习指令微调 LoRA专家任务路由

推荐理由：做多模态持续学习的团队终于有了解决任务路由混乱的方案——ProtoAda通过原型感知输出结构，避免VQA和接地任务互相污染，建议关注论文中的几何整合细节。

原文

5月29日

12:14

arXiv cs.LG@Ziwen Xu, Haiwen Hong, Linsong Yu, Benglei Cui, Longtao Huang, Hui Xue, Ningyu Zhang

该论文系统研究了 LoRA 在 LLM 微调中的参数记忆容量与动态机制，提出了 Parametric Memory Law——一个将损失减少与有效参数和序列长度联系起来的幂律关系。在 token 级别，研究发现预测概率 p > 0.5 是贪心解码下逐字回忆的充分条件，存在确定性相变。基于此，作者提出 MemFT 阈值引导优化策略，动态分配训练预算给低于阈值的 token，实验表明能提升记忆保真度和效率。这项工作首次从定量角度揭示了 LoRA 的记忆极限，对持续学习和知识更新有重要指导意义。

论文 LoRA 参数记忆微调持续学习幂律

推荐理由：做 LLM 微调或持续学习的团队，终于有了量化记忆容量的理论工具——MemFT 能直接帮你优化训练预算分配，建议做 LoRA 相关工作的点开看看。

原文

5月26日

12:20

arXiv cs.LG@Martin Marek, Dongkyu Cho, Shikai Qiu, Rumi Chunara, Pavel Izmailov, Andrew Gordon Wilson

精选

该论文研究了语言模型在新任务训练时遗忘旧知识的问题，并提出利用模型自身生成的样本作为回放数据，几乎可以消除遗忘。研究发现，当模型容量接近饱和时，遗忘仍会发生，因为模型无法吸收新信息而不覆盖旧知识。在容量充足的情况下，低学习率可以减少遗忘但需要更多训练步骤，而自生成回放打破了这一权衡，允许高学习率微调而不遗忘。这一方法避免了传统回放需要存储旧样本的不可行性，为持续学习提供了实用方案。

论文语言模型遗忘持续学习自生成回放容量

推荐理由：这篇论文解决了语言模型持续学习中的核心痛点——遗忘问题，做模型微调或持续训练的团队可以直接用自生成回放方法，省去存储旧样本的麻烦，值得关注。

原文

12:20

arXiv cs.LG@Jun-Tao Tang, Yu-Cheng Shi, Zhen-Hao Xie, Da-Wei Zhou

精选

多模态大语言模型（MLLMs）通过指令调优将多样任务统一为指令遵循框架，但实际部署需要持续适应新任务，这催生了多模态持续指令调优（MCIT）。然而，当前MCIT研究受限于工程瓶颈：现有方法通常直接修改基础MLLM代码库，导致实现开销大、架构特定、代码复用和公平比较困难。为此，研究者提出Prism，一个插件式可复现代码库，通过轻量级插件注册机制将算法开发与骨干实现分离，无需修改底层MLLM代码即可集成新策略。Prism原生支持大规模训练流水线，确保可复现和可扩展的MCIT实验。代码已开源。

论文多模态大语言模型持续学习指令调优开源/仓库 Prism

推荐理由：Prism解决了MCIT研究中代码碎片化和复现难的问题，做多模态持续学习的团队可以直接用这个插件式框架加速实验，省去大量工程重复劳动。

原文

5月22日

11:35

arXiv cs.LG@Javad Parsa, Enis Simsar, Amir Joudaki, Thomas Hofmann, André M. H. Teixeira

精选

SeqLoRA 是一种针对文本到图像扩散模型的高效微调方法，解决了多概念组合生成中的表示干扰问题。现有模块化方法要么依赖昂贵的后处理融合，要么冻结适配子空间，限制了表达力和概念保真度。SeqLoRA 通过双层优化联合优化两个 LoRA 因子，并建立强收敛保证，从理论上证明学习 LoRA 基比固定基方法更有效减少干扰。实验显示，SeqLoRA 在多达 101 个概念上提升了身份保持和可扩展性，无需昂贵融合，减少了属性干扰。

论文 LoRA 多概念生成扩散模型持续学习双层优化

推荐理由：做多概念图像生成的团队终于有了一个兼顾保真度和可扩展性的方案——SeqLoRA 用双层优化解决了 LoRA 的干扰问题，支持上百个概念组合，做个性化扩散模型的开发者值得一试。

原文

11:10

arXiv cs.AI@Pilchen Hippolyte, Fabre Romain, Signe Talla Franck, Perez Patrick, Grave Edouard

精选72°

该研究探讨了预训练数据顺序对大语言模型获取时间敏感事实知识的影响。作者构建了包含7000多个时间锚定问题的基准测试，并训练了6B参数模型，比较了按时间顺序预训练与标准随机打乱预训练的效果。结果显示，按时间顺序训练的模型在通用语言理解和常识方面与随机基线相当，但事实知识更新、更精确。随机预训练模型在旧数据上表现更好，可能是因为事实重复更多。研究为LLM持续学习提供了基础，并开源了代码、检查点和数据集。

论文大语言模型预训练数据时序性事实知识持续学习

推荐理由：这项研究揭示了数据顺序对模型知识时效性的关键影响，做LLM预训练或持续学习的团队值得关注，可以直接参考其基准和训练方法。

原文

5月13日

19:12

arXiv cs.AI@Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer, Inderjit S Dhillon, Rishabh Agarwal, Devvrit Khatri

精选70°

这篇论文提出了一种名为Fast-Slow Training（FST）的框架，将LLM的参数视为“慢权重”，优化后的上下文视为“快权重”。快权重通过文本反馈吸收任务特定信息，慢权重则保持基础模型的一般推理能力。实验表明，FST在推理任务上比仅用强化学习（慢学习）样本效率提升3倍，且性能上限更高。FST训练的模型与基础LLM的KL散度降低70%，显著减少灾难性遗忘，并保持可塑性——在连续学习场景中，FST能持续获取新任务，而参数仅更新的RL方法会停滞。

论文持续学习灾难性遗忘上下文学习强化学习 Fast-Slow Training

推荐理由：这篇论文解决了LLM在持续学习中灾难性遗忘和可塑性丧失的痛点，做模型微调、持续学习或Agent长期记忆的团队值得关注——FST框架让你不用在参数更新和上下文学习之间二选一，直接结合两者优势。

原文