全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

11:23

arXiv cs.LG@Ayushman Trivedi, Bhavika Melwani

该论文挑战了持续学习中“灾难性遗忘即信息破坏”的传统观点，提出遗忘知识其实仍以紧凑形式存在于模型表征中。研究者在Split CIFAR-100上训练ResNet-18，通过引入“恢复子空间维度”指标发现，尽管表征漂移显著，但恢复遗忘知识所需的子空间维度在整个训练过程中保持稳定（均值8.0）。主角度漂移与可恢复性高度相关（r=-0.862），一个简单几何模型能解释82.2%的可恢复性方差。这些结果支持“稳定恢复流形”假说，表明灾难性遗忘本质上是可访问性和流形对齐问题，而非信息丢失。

论文持续学习灾难性遗忘表征几何可恢复性 ResNet-18

推荐理由：这篇论文用几何视角重新定义了灾难性遗忘，做持续学习或模型遗忘研究的开发者会看到新方向——遗忘不是删除，而是藏起来了。建议关注其恢复子空间维度的测量方法，可能启发新的抗遗忘算法。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

11:00

arXiv cs.LG@Mohammadreza Sadeghi, Sareh Soleimani, Zihan Wang, Narges Armanfard

本文提出无监督持续聚类（UCC）问题，并引入前向-后向知识蒸馏持续聚类方法（FBCC）。该方法通过持续教师网络和轻量级任务特定学生，在无标签且不存储旧数据的情况下，学习新聚类同时保留已有聚类结构。实验表明，FBCC在四个基准数据集上持续优于现有持续学习方法，显著减少灾难性遗忘。这是首个专门针对无监督持续聚类的研究，解决了该领域缺乏聚类特定目标的问题。

论文无监督学习持续学习知识蒸馏聚类灾难性遗忘

推荐理由：做无监督学习和持续学习的团队终于有了聚类场景的专用方案——FBCC 不依赖标签和旧数据就能保持聚类结构，做数据流聚类或隐私敏感场景的开发者可以直接参考实验设置。

原文

10:12

arXiv cs.AI@Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, Ali Jannesari

精选

大型语言模型在持续学习中面临可塑性-稳定性困境，学习新任务常导致旧知识灾难性遗忘。现有方法统一处理参数，无法区分任务特定知识与共享能力。SETA框架通过自适应稀疏子空间分解，将知识分离为任务特定专家和共享专家，利用弹性锚定和路由正则化保护共享知识，统一门控网络自动检索正确专家组合。在LLaMA-2 7B和Qwen3-4B上的实验表明，SETA在多个领域基准上达到或超越现有方法，尤其擅长保留早期任务知识并改善反向迁移。

论文持续学习灾难性遗忘专家混合 LLM 稀疏子空间

推荐理由：SETA解决了LLM持续学习中任务知识冲突的核心痛点，做多任务模型训练或知识迁移的团队可以直接参考其专家分解思路，值得关注其稀疏子空间设计。

原文

5月28日

11:57

arXiv cs.LG@Zhen-Hao Xie, Yu-Cheng Shi, Da-Wei Zhou

本文提出AREA方法，针对CLIP模型在类增量学习（CIL）中的灾难性遗忘问题。传统CLIP通过模板提示（如“一张[类别]的照片”）进行视觉与文本嵌入的相似度匹配，但该过程可分解为属性提取与属性聚合两个阶段。由于增量学习仅能访问当前任务数据，模型容易偏向新类别。AREA通过主测地线分析在超球面嵌入空间锚定属性，并引入轻量级任务专家与变分信息瓶颈正则化来稳定聚合。推理时利用最优传输进行任务属性流路由，实现更精确预测。实验表明，AREA在多个基准上超越现有最先进方法。

论文类增量学习 CLIP 属性提取灾难性遗忘最优传输

推荐理由：做持续学习或CLIP微调的团队，AREA把增量遗忘的根因拆解为属性提取与聚合两个环节，并给出了可落地的解耦方案，值得看看代码和实验细节。

原文

5月13日

19:12

arXiv cs.AI@Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer, Inderjit S Dhillon, Rishabh Agarwal, Devvrit Khatri

精选70°

这篇论文提出了一种名为Fast-Slow Training（FST）的框架，将LLM的参数视为“慢权重”，优化后的上下文视为“快权重”。快权重通过文本反馈吸收任务特定信息，慢权重则保持基础模型的一般推理能力。实验表明，FST在推理任务上比仅用强化学习（慢学习）样本效率提升3倍，且性能上限更高。FST训练的模型与基础LLM的KL散度降低70%，显著减少灾难性遗忘，并保持可塑性——在连续学习场景中，FST能持续获取新任务，而参数仅更新的RL方法会停滞。

论文持续学习灾难性遗忘上下文学习强化学习 Fast-Slow Training

推荐理由：这篇论文解决了LLM在持续学习中灾难性遗忘和可塑性丧失的痛点，做模型微调、持续学习或Agent长期记忆的团队值得关注——FST框架让你不用在参数更新和上下文学习之间二选一，直接结合两者优势。

原文