11:15arXiv cs.LG@Bertram Taetz, Hugo Albuquerque Cosme da Silva, Gabriele Bleser-Taetz本研究提出基于冻结大语言模型和LoRA变体的持续学习方法,使运动-语言智能体能在不遗忘旧知识的情况下增量学习新动作概念。采用混合专家架构和基于自编码器的路由器在推理时选择任务特定专家,无需任务标签。在从HumanML3D导出的5任务基准上,该方法在运动到文本(M2T)和文本到运动(T2M)两个方向上实现了近乎零遗忘,且保持高质量生成与描述。实验表明硬专家选择在质量指标上显著优于软专家混合,专家隔离对持续学习性能至关重要。论文运动-语言智能体持续学习LoRA混合专家HumanML3D推荐理由:这篇论文提出用LoRA和混合专家架构让智能体不断学新动作而不忘旧的,5任务基准上几乎零遗忘,值得做持续学习或运动生成的看看。原文
11:01arXiv cs.LG@Naeem Paeedeh, Mahardhika Pratama, Wolfgang Mayer, Mukesh Prasad, Weiping Ding, Yew-Soon Ong本文定义了少样本领域增量学习(FSDIL)问题,针对传统方法在数据极少时过拟合的痛点。提出持续视觉-语言整合(CVLC)算法,关键思想是在基领域预留隐空间和双融合投影(DCP)参数高效微调。通过LLM生成多模板和同义词校准视觉与语言原型并融合,再用DCP适应新领域。在多个基准上,CVLC相比此前方法提升最高达16%。代码已开源。论文FSDILCVLCDomain Incremental Learning少样本学习持续学习推荐理由:这篇论文提出了一个叫FSDIL的新问题和一个叫CVLC的算法,用双融合投影微调视觉语言模型,在少样本领域增量学习上比之前的方法好16%。原文
09:52arXiv cs.AI@Augustinas Jučas, Yangchen PanCIRCLE是一种基于固定双向二维储层特征(BiRC2D)的类增量分类器,使用流式线性判别分析(SLDA)头。它不需要回放、外部预训练或大初始任务。在CIFAR-100、TinyImageNet、ImageNet-Subset和ImageNet-1k数据集上,CIRCLE在10-20任务分割中表现有竞争力,在50、100和500任务分割中大幅超越现有强基线。同时训练速度远快于有回放的方法。消融实验表明,BiRC2D特征提取器、SLDA头和平衡特征/预测集成各自贡献了性能。论文CIRCLEBiRC2DSLDA持续学习类增量学习推荐理由:这篇论文提出CIRCLE方法:用固定储层特征做持续学习,无需回放,在长任务序列上比现有方法更快更准确。原文
13:02arXiv cs.AI@Ulas Berk Karli, Tesca Fitzgerald论文提出RECALL方法,用于视觉-语言-动作(VLA)模型的主动持续学习。与被动模仿学习相比,不确定性引导的数据收集使微调效率提升30%以上。但仅训练恢复数据会导致灾难性遗忘,在OpenVLA模型上丢失20%的旧任务性能。评估了重放混合和弹性权重巩固(EWC)两种持续学习技术,发现可塑性与记忆保留之间存在权衡。实验在3个机器人操作任务上进行,表明不确定性引导的恢复演示能提升适应效率,但如何平衡新旧知识仍是开放挑战。论文VLARECALL主动学习持续学习机器人推荐理由:这篇论文研究了怎么让机器人在学新任务时不忘旧技能,用不确定性主动挑数据微调VLA模型,比被动收集更高效,还试了两种防遗忘方法,挺实在的。原文
23:47AWS Machine Learning Blog@Madhu Parthasarathy精选71°Amazon Bedrock AgentCore新增多项能力,支持连接组织、网页和付费知识源,扩展智能体的知识范围。新工具帮助团队在生产环境中定位和修复问题,并实施随智能体能力提升自动扩展的控制机制。这些功能使开发者能更快构建更强大的智能体,并以规模化方式治理和持续改进。AI产品Amazon BedrockAgentCore智能体知识源持续学习1 个信源在谈推荐理由:AWS刚更新了Bedrock AgentCore,现在能连更多知识源,还加了监控和自动控制,做智能体更省心了。原文
10:19arXiv cs.LG@Kathrin Korte, Christian Medeiros Adriano, Joachim Winther Pedersen, Eleni Nisioti, Sebastian Risi该研究在A-B-A范式下比较了任务划分循环网络与单网络基线在持续学习中的表现。高维“lazy”状态中,两种架构性能相近,模块化收益小。低维“rich”状态中,模块化网络形成梯度任务特异子空间,对相似任务重叠、中等相似对齐、不相似分离,实现更组合化的组织。结果表明,初始化尺度诱导的表征维度是决定模块化结构是否有利于持续学习的关键因素。论文持续学习模块化表征维度A-B-A范式循环网络推荐理由:这篇论文用实验告诉你:模块化在持续学习中不是万能的,维度低时才有用,帮你判断何时该用模块化设计。原文
09:44arXiv cs.AI@Davide Domini, Gianluca Aguzzi, Lorenzo Pellegrini, Mirko Viroli, Lukas Esterle研究者提出C2FL,一种完全分布式的联邦学习方法。节点通过空间聚类自组织成学习组,反映环境地理结构。为应对时间漂移,每个节点结合经验回放与驻留时间感知的自适应平均步骤,逐步融入区域共识。合成实验表明,标准联邦学习策略在空间和时间漂移下准确率下降超过30%,而C2FL恢复至接近集中式训练的性能。论文C2FL联邦学习空间聚类时间漂移持续学习推荐理由:这篇论文用空间聚类和驻留时间自适应平均,解决了移动场景下联邦学习数据漂移的老大难问题,效果比标准FL好很多。原文
09:52arXiv cs.LG@Weihang Su, Jiacheng Kang, Jingyan Xu, Qingyao Ai, Jianming Long, Hanwen Zhang, Bangde Du, Xinyuan Cao, Min Zhang, Yiqun Liu论文提出ReGrad(Retrievable Gradients)范式,将梯度视为可检索的知识单元。方法预先离线计算文档特定梯度并存入索引梯度库,推理时仅检索查询相关梯度进行临时权重适应。为解决原始语言建模梯度不适于查询驱动知识使用的问题,引入双层元学习目标重塑梯度为通用适应信号。实验在通用和领域特定设置中表明,ReGrad优于CPT和RAG基线,实现可扩展且可逆的参数化知识注入,不累积权重漂移。论文ReGradCPTRAG持续学习可检索梯度推荐理由:这篇论文提出了ReGrad,把梯度当知识存起来,推理时才取用,不破坏原有模型参数,效果比CPT和RAG都好。原文
13:10rohanpaul_ai@rohanpaul_ai精选AGENTCL 提出一个评估语言智能体持续学习能力的新基准,通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流(后续任务可复用前序任务的代码函数、研究证据或工作流)与“朴素”任务流(任务同领域但无明确复用关系)。研究发现,当前记忆方法在任务连接明显时能复用过往经验,但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。论文AGENTCL智能体持续学习记忆基准推荐理由:看智能体记忆到底行不行原文
11:23arXiv cs.LG@Ayushman Trivedi, Bhavika Melwani该论文挑战了持续学习中“灾难性遗忘即信息破坏”的传统观点,提出遗忘知识其实仍以紧凑形式存在于模型表征中。研究者在Split CIFAR-100上训练ResNet-18,通过引入“恢复子空间维度”指标发现,尽管表征漂移显著,但恢复遗忘知识所需的子空间维度在整个训练过程中保持稳定(均值8.0)。主角度漂移与可恢复性高度相关(r=-0.862),一个简单几何模型能解释82.2%的可恢复性方差。这些结果支持“稳定恢复流形”假说,表明灾难性遗忘本质上是可访问性和流形对齐问题,而非信息丢失。论文持续学习灾难性遗忘表征几何可恢复性ResNet-18推荐理由:这篇论文用几何视角重新定义了灾难性遗忘,做持续学习或模型遗忘研究的开发者会看到新方向——遗忘不是删除,而是藏起来了。建议关注其恢复子空间维度的测量方法,可能启发新的抗遗忘算法。原文
12:34arXiv cs.LG@Andries Rosseau, Robert Müller, Ann Nowé精选深度神经网络在非平稳环境下的持续训练常导致可塑性逐渐丧失,限制进一步学习。本文首次将可塑性与经验神经正切核联系起来,并识别出动态等距性(各层雅可比奇异值接近1)是保持持续学习可塑性的关键机制。作者重新审视了一类几乎处处等距且保持通用Lipschitz函数逼近能力的网络,证明近动态等距性与表达性非线性表示兼容。针对通用架构,提出了高效的等距促进正则化方案,并发现其能重新激活休眠的ReLU单元。基于此,开发了AdamO优化器,将等距正则化与梯度更新解耦。在多个持续学习基准上,该方法一致匹配或超越现有方法。论文持续学习可塑性动态等距性优化器AdamO推荐理由:持续学习中的可塑性丧失是困扰AI训练的核心难题,本文从理论到实践给出了新解法——做持续学习、强化学习或终身学习的开发者,值得关注这个等距性视角。原文
02:18rohanpaul_ai@rohanpaul_ai精选72°一篇新论文提出CL-BENCH基准,测试AI智能体是否真正从经验中学习,而非仅依赖记忆。研究发现,简单的全上下文学习优于专门的记忆系统,Claude Sonnet 4.6在纯上下文模式下取得最佳成绩。该基准涵盖编码、数据库、预测等6个领域,要求智能体在连续任务中发现模式。结果表明,当前记忆密集型AI智能体并未比保持完整对话上下文更可靠地学习。这提醒我们,长期运行的AI智能体需要更好的方式来记住有用经验、遗忘过时信息并适应环境变化。论文智能体基准测试持续学习记忆系统Claude Sonnet推荐理由:这篇论文戳破了AI智能体“越用越聪明”的幻觉,做智能体开发或长期任务自动化的团队值得看看——你的系统可能只是在记笔记,而不是真在学习。原文
11:07arXiv cs.LG@Ryan Missel, Xiajun Jiang, Linwei Wang个性化心脏模拟面临模型个性化和计算成本挑战,现有神经代理方法要么侧重高效个性化,要么侧重泛化模型训练。最新研究通过小样本生成建模和元学习实现个性化,但假设训练分布静态且任务标识已知,无法处理临床中顺序到达的未标记数据,否则会灾难性遗忘。本文提出持续元学习框架CoMetaPNS,利用持续贝叶斯高斯混合模型推断数据标识和关系,实现个性化神经代理的持续集成。在合成心脏数据上,该方法在模拟预测、计算可扩展性和抗遗忘方面优于现有基线。论文持续学习元学习心脏模拟神经代理个性化医疗推荐理由:心脏模拟领域终于有了能应对临床数据流变化的方案——CoMetaPNS解决了灾难性遗忘问题,做个性化医疗模拟或心脏电生理研究的团队可以直接参考其持续学习框架。原文
11:00arXiv cs.LG@Mohammadreza Sadeghi, Sareh Soleimani, Zihan Wang, Narges Armanfard本文提出无监督持续聚类(UCC)问题,并引入前向-后向知识蒸馏持续聚类方法(FBCC)。该方法通过持续教师网络和轻量级任务特定学生,在无标签且不存储旧数据的情况下,学习新聚类同时保留已有聚类结构。实验表明,FBCC在四个基准数据集上持续优于现有持续学习方法,显著减少灾难性遗忘。这是首个专门针对无监督持续聚类的研究,解决了该领域缺乏聚类特定目标的问题。论文无监督学习持续学习知识蒸馏聚类灾难性遗忘推荐理由:做无监督学习和持续学习的团队终于有了聚类场景的专用方案——FBCC 不依赖标签和旧数据就能保持聚类结构,做数据流聚类或隐私敏感场景的开发者可以直接参考实验设置。原文
10:12arXiv cs.AI@Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, Ali Jannesari精选大型语言模型在持续学习中面临可塑性-稳定性困境,学习新任务常导致旧知识灾难性遗忘。现有方法统一处理参数,无法区分任务特定知识与共享能力。SETA框架通过自适应稀疏子空间分解,将知识分离为任务特定专家和共享专家,利用弹性锚定和路由正则化保护共享知识,统一门控网络自动检索正确专家组合。在LLaMA-2 7B和Qwen3-4B上的实验表明,SETA在多个领域基准上达到或超越现有方法,尤其擅长保留早期任务知识并改善反向迁移。论文持续学习灾难性遗忘专家混合LLM稀疏子空间推荐理由:SETA解决了LLM持续学习中任务知识冲突的核心痛点,做多任务模型训练或知识迁移的团队可以直接参考其专家分解思路,值得关注其稀疏子空间设计。原文
03:17elvis@omarsar0精选Continual Learning Bench 是一个新的基准测试,用于评估智能体是否真正从经验中学习。研究发现,在六个专家验证的领域内,简单的上下文学习(ICL)表现优于专门为记忆管理设计的系统。该基准引入了一个增益指标来隔离真正的学习效果,结果显示智能体经常过度拟合即时观察或未能跨实例复用知识。这表明许多记忆架构实际上增加了开销而非学习能力。论文持续学习基准测试记忆系统上下文学习智能体推荐理由:如果你在构建或研究持续学习智能体,这个基准测试直接挑战了当前记忆系统的有效性——简单ICL反而更好,值得所有AI研究者点开看看。原文
13:22arXiv cs.LG@Marius Dragoi, Ioana Pintilie, Alexandra Dragomir, Antonio Barbalau, Florin Brad精选TailLoR 是一种基于谱分解的参数高效微调方法,专为持续学习设计。它利用预训练权重的奇异基 U 和 V 作为固定参考框架,学习对奇异值矩阵的低秩更新。通过软谱惩罚抑制与主导奇异方向对齐的更新,减少干扰,同时将细粒度适应引导到高度灵活的长尾谱坐标中。该方法在持续学习场景中有效平衡了旧知识保留与新任务适应。论文持续学习参数高效微调谱分解低秩更新TailLoR推荐理由:持续学习是让模型不断吸收新知识而不遗忘旧知识的关键技术,做模型微调或增量学习的开发者可以关注 TailLoR 如何用谱分解优雅解决灾难性遗忘问题。原文
10:50arXiv cs.AI@Xiaoyang Jiang, Yanlai Yang, Kenneth A. Norman, Brenden Lake, Mengye Ren精选儿童从连续的自我中心经验流中学习词汇,而现有神经网络模型通常对数据进行数百轮随机打乱训练,与真实学习过程不符。研究者提出BabyCL框架,以单次时间顺序处理SAYCam数据集,结合流式视觉表示学习和图像-文本对比目标。BabyCL采用多阶段时间分割和双回放缓冲区,在匹配优化预算下,在SAYCam Labeled-S 4AFC基准上优于流式学习基线,显著缩小了与离线训练的差距。消融实验表明,其增益对时间分割窗口长度和回放缓冲区驱逐规则具有鲁棒性。这项工作表明,在更接近儿童实际体验的训练条件下,有意义的词-指代映射可以涌现。论文持续学习多模态学习儿童认知对比学习SAYCam推荐理由:BabyCL解决了持续学习场景下多模态对齐的难题,做认知科学或持续学习的研究者可以直接参考其双回放缓冲区设计,值得关注。原文
10:45arXiv cs.LG@Ali Behrouz, Farnoosh Hashemi, Vahab Mirrokni精选受人类学习过程启发,研究者提出了一种名为“睡眠”的范式,让大语言模型能够持续学习,将短期脆弱记忆蒸馏为稳定的长期知识。该范式包含两个阶段:记忆巩固(通过知识播种将小模型记忆蒸馏到大模型)和梦境(模型通过强化学习生成合成数据自我改进)。实验证明,该方法在长时任务、持续学习、知识整合和少样本泛化上效果显著。这项工作解决了LLM无法持续更新长期参数的核心痛点,为模型终身学习提供了新思路。论文持续学习记忆巩固蒸馏强化学习LLM推荐理由:做持续学习和模型终身优化的研究者值得关注——它用“睡眠”机制解决了LLM记忆遗忘问题,比传统微调更接近人类学习方式,看完会有启发。原文
10:24arXiv cs.AI@Mubarak A. Ojewale, Adriana E. Chis, Jorge M. Cortes-Mendoza, Bernardo Pulido-Gaytan, Horacio Gonzalez-Velez联邦学习中客户端数据分布随时间漂移会导致模型遗忘,现有方法如Flashback假设分布静止,无法应对时间变化。FlashbackCL通过引入时间衰减标签计数、设备感知重放缓冲区和服务器端核心集筛选,在CIFAR-10上相对Flashback提升6.9%-10.0%,时间遗忘减少68%。在静态CIFAR-100上也提升3.5个点,表明类平衡重放对空间和时间异质性均有正则化效果。论文联邦学习时间遗忘持续学习类平衡重放FlashbackCL推荐理由:联邦学习团队终于有了应对数据漂移的实用方案——FlashbackCL直接替换Flashback即可,做边缘设备或持续学习部署的开发者值得一试。原文
10:14rohanpaul_ai@rohanpaul_ai精选72°论文提出 FluxMem 记忆系统,将智能体记忆视为不断变化的连接网络,而非静态文件柜。它存储事实、任务片段和可复用技能作为图中的连接点,在任务执行时先收集有用记忆,再根据反馈修复连接(增删链接或调整细节)。长期运行中,重复成功的任务路径会自动转化为可复用技能。在长对话记忆、网页导航和通用助手任务上,FluxMem 取得显著提升,包括 LoCoMo 上 95.06% 平均准确率和 GAIA 上 12.73 个百分点的增益。该研究将智能体记忆从“存储-检索”范式转向“持续修复和强化有效连接”。论文智能体记忆系统图结构FluxMem持续学习推荐理由:做智能体记忆系统的开发者终于有了一个跳出传统检索范式的方案——FluxMem 用图结构动态修复连接,实测效果显著,值得深入研究其实现细节。原文
12:04arXiv cs.AI@Yiheng Shu, Bernal Jiménez Gutiérrez, Saisri Padmaja Jonnalagedda, Yuguang Yao, Huan Sun, Yu Su语言智能体在单个任务上花费大量推理时间,但跨任务的经验复用不足。现有基准难以严格评估持续学习,多聚焦长上下文检索或简单任务流,缺乏对跨任务关系的分析。本文提出AgentCL框架,通过受控任务流和迁移增益指标,评估智能体能否积累可复用经验、随时间改进并避免干扰。实验表明,受控流比简单流更能区分记忆设计的可塑性,而简单流和保留设置常暴露记忆导致的性能退化。该工作为设计平衡可塑性与稳定复用的记忆系统提供了方向。论文持续学习智能体评估框架记忆设计语言模型推荐理由:做智能体持续学习和记忆设计的团队,AgentCL提供了比现有基准更严格的评估方法,能帮你诊断记忆设计在跨任务复用中的真实效果,值得参考。原文
11:59arXiv cs.LG@Yu-Cheng Shi, Zhen-Hao Xie, Jun-Tao Tang, Da-Wei Zhou多模态大语言模型(MLLMs)通过指令微调表现出色,但实际部署需要持续获取新的视觉语言能力,因此多模态持续指令微调(MCIT)至关重要。现有方法常采用稀疏架构(如混合LoRA专家)通过图像-文本相似度路由,但任务响应结构不同时可能共享高度相似的语义,导致路由错误和梯度干扰。ProtoAda提出格式感知的任务原型,将任务分配与路由对齐到语义和输出结构,并通过几何感知方式整合格式兼容的更新,有效重用和优化现有参数。实验表明,ProtoAda在多个基准上表现优异,尤其对答案结构易被顺序微调破坏的任务效果显著。论文多模态大语言模型持续学习指令微调LoRA专家任务路由推荐理由:做多模态持续学习的团队终于有了解决任务路由混乱的方案——ProtoAda通过原型感知输出结构,避免VQA和接地任务互相污染,建议关注论文中的几何整合细节。原文
10:19marktechpost@Michal Sutter精选72°Trajectory 与 UC Berkeley Sky Lab 和 Anyscale 合作,构建了一个用于持续学习的并发多 LoRA 训练栈。该方案将每个强化学习实验映射到始终热运行的引擎上的专用 LoRA 适配器,相比单租户基线实现了 2.81 倍的端到端实验吞吐量提升,且无奖励回归。代码已在 NovaSky-AI/SkyRL 开源。这一进展解决了持续学习中多实验并行效率低下的问题,对强化学习研究和工程团队有直接价值。AI模型LoRA持续学习强化学习开源/仓库训练栈推荐理由:做强化学习持续训练的团队终于有了高效的并行方案——2.81 倍吞吐量提升且不损失奖励,直接开源可用,建议试试。原文
22:53rohanpaul_ai@rohanpaul_ai72°一场由顶尖研究者参与的 Transformer 与 Post-Transformer 辩论,以拳击擂台形式呈现,兼具技术深度与娱乐性。Transformer 阵营强调其规模化优势、硬件友好性和当前统治地位,认为替代者需 10 倍更好才能迫使生态切换。Post-Transformer 阵营则指出原生推理、持续学习和真正记忆是当前架构的短板,未来可能是混合架构。辩论持续 1 小时 20 分钟,涵盖从注意力机制到 latent reasoning 的多个关键点。AI模型TransformerPost-Transformer推理模型持续学习架构辩论推荐理由:这场辩论把 AI 架构之争讲得既硬核又好玩,做模型研究或关注下一代架构的开发者看完会有新视角,建议直接看原视频。原文
12:14arXiv cs.LG@Ziwen Xu, Haiwen Hong, Linsong Yu, Benglei Cui, Longtao Huang, Hui Xue, Ningyu Zhang该论文系统研究了 LoRA 在 LLM 微调中的参数记忆容量与动态机制,提出了 Parametric Memory Law——一个将损失减少与有效参数和序列长度联系起来的幂律关系。在 token 级别,研究发现预测概率 p > 0.5 是贪心解码下逐字回忆的充分条件,存在确定性相变。基于此,作者提出 MemFT 阈值引导优化策略,动态分配训练预算给低于阈值的 token,实验表明能提升记忆保真度和效率。这项工作首次从定量角度揭示了 LoRA 的记忆极限,对持续学习和知识更新有重要指导意义。论文LoRA参数记忆微调持续学习幂律推荐理由:做 LLM 微调或持续学习的团队,终于有了量化记忆容量的理论工具——MemFT 能直接帮你优化训练预算分配,建议做 LoRA 相关工作的点开看看。原文
19:33The Rundown AI@therundownai今日AI领域多个重要动态:Biohub发布蛋白质生物学世界模型,有望加速药物发现;OpenAI基金会投入2.5亿美元推动AI颠覆性应用;还有AI代理可学习用户编辑风格、持续学习型AI等进展。这些事件标志着AI在生命科学、教育、工具等领域的深度渗透。行业蛋白质模型OpenAI基金会AI代理持续学习行业动态10 个信源在谈推荐理由:Biohub的蛋白质世界模型可能改写药物研发规则,做生物计算或制药的团队值得关注;OpenAI的2.5亿美元投入则暗示AI教育赛道即将爆发,相关从业者建议点开了解。原文
13:00Together AI@togethercomputeTogether Compute 宣布祝贺 Trajectory Labs 在 AI Native Cloud 上启动训练,专注于持续学习(Continual Learning)的前沿研究。持续学习旨在让模型在部署后不断适应新数据,避免静态模型的局限性。这一合作可能推动 AI 模型从一次性训练转向动态进化,对需要长期适应性的应用场景(如机器人、推荐系统)意义重大。Trajectory Labs 的探索代表了研究实验室对下一代 AI 架构的追求。AI模型持续学习AI Native CloudTrajectory Labs动态模型研究前沿推荐理由:持续学习是打破模型静态瓶颈的关键方向,做 AI 研究和工程化的团队值得关注 Trajectory Labs 的进展,看看他们如何用 AI Native Cloud 实现动态模型训练。原文
10:25Lenny Rachitsky@lennysan精选76°Trajectory 是一家研究实验室兼产品公司,宣布获得 1500 万美元融资,投资方包括 Conviction、Bessemer Venture Partners 等。该公司正在构建持续学习平台,能够从产品使用数据中提取信号,让企业持续后训练大规模智能体模型,使其性能超越前沿模型。Trajectory 已与 Clay、Harvey、Decagon 等 AI 原生公司合作,部分已进入生产阶段。团队汇聚了来自 DeepMind、OpenAI、Apple、Meta 等机构的顶尖研究人员。AI产品持续学习智能体后训练融资Trajectory10 个信源在谈推荐理由:持续学习是智能体落地的关键瓶颈,Trajectory 用产品使用数据后训练模型,做 AI 智能体的团队值得关注其技术路线。原文
10:22LangChain@LangChainAILangChain 在 Interrupt 大会上宣布成立 LangChain Labs,这是一个专注于智能体持续学习的应用研究团队。该实验室已与 NVIDIA、Harvey、PrimeIntellect、Fireworks_AI 和 Baseten 等公司建立早期研究合作。LangChain Labs 旨在解决智能体在长期任务中如何持续学习和适应的问题,这对于构建更可靠的 AI 代理系统至关重要。这一举措标志着 LangChain 从框架开发向前沿研究领域的扩展。AI产品LangChain智能体持续学习研究实验室NVIDIA5 个信源在谈推荐理由:LangChain Labs 聚焦智能体持续学习这一核心痛点,做 AI 代理开发的团队值得关注——它可能解决长期任务中代理性能衰减的问题,建议跟进合作动态。原文
00:09rohanpaul_ai@rohanpaul_aiTrajectory 是一家由前 DeepMind、OpenAI 和 Meta 超级智能研究员创立的初创公司,近日推出了一个持续学习平台,并获得了 1500 万美元融资。该平台旨在解决当前 AI 产品“冻结软件”的问题——用户每天都在纠正模型错误,但这些纠正很少被用来更新模型。Trajectory 的核心单元是“轨迹”,它结合了智能体的操作和用户的接受、拒绝、编辑、重试或修复行为,使公司能够基于完整的失败链进行训练,同时改进模型权重、提示词和智能体工作流。持续学习被认为是 AI 的下一个重大飞跃,能让模型在部署后从实际使用中不断改进。AI产品持续学习智能体模型部署Trajectory用户反馈10 个信源在谈推荐理由:Trajectory 解决了 AI 产品部署后无法从用户反馈中持续学习的痛点,做 AI 产品落地的团队可以直接关注这个平台,看看如何利用用户纠错来提升模型能力。原文
17:53Harrison Chase@hwchase17Harrison Chase(LangChain 创始人)在 X 上推荐了一个名为 Quarq 的开源智能体项目,其核心设计围绕记忆与持续学习能力。该智能体能够记住历史交互并从中学习,从而在长期任务中表现更稳定。这一方向解决了当前 AI 智能体缺乏长期记忆、难以持续优化的痛点。对于构建需要长期交互或个性化服务的 AI 应用的开发者来说,Quarq 提供了一个值得探索的开源方案。AI产品开源/仓库智能体记忆持续学习Quarq推荐理由:做长期交互 AI 应用的开发者终于有了一个原生支持记忆和持续学习的开源智能体,LangChain 创始人亲自推荐,值得一试。原文
13:33marktechpost@Asif Razzaq精选来自新加坡国立大学、MIT和A*STAR的研究人员提出了MEMO框架,该框架将语料库知识编码到一个独立的可训练记忆模型中,无需修改大语言模型(LLM)的参数。MEMO通过模块化设计,让LLM能够动态访问外部记忆,从而高效学习新知识,同时保持原有模型能力不变。这一方法解决了LLM在持续学习中的灾难性遗忘问题,并降低了更新成本。实验表明,MEMO在知识注入任务上表现优异,且不影响模型原有性能。论文记忆模型模块化框架持续学习LLM知识注入推荐理由:MEMO解决了LLM持续学习中的核心痛点——无需重训模型就能注入新知识,做知识密集型应用(如问答、检索增强生成)的团队可以直接参考,值得关注。原文
12:20arXiv cs.LG@Martin Marek, Dongkyu Cho, Shikai Qiu, Rumi Chunara, Pavel Izmailov, Andrew Gordon Wilson精选该论文研究了语言模型在新任务训练时遗忘旧知识的问题,并提出利用模型自身生成的样本作为回放数据,几乎可以消除遗忘。研究发现,当模型容量接近饱和时,遗忘仍会发生,因为模型无法吸收新信息而不覆盖旧知识。在容量充足的情况下,低学习率可以减少遗忘但需要更多训练步骤,而自生成回放打破了这一权衡,允许高学习率微调而不遗忘。这一方法避免了传统回放需要存储旧样本的不可行性,为持续学习提供了实用方案。论文语言模型遗忘持续学习自生成回放容量推荐理由:这篇论文解决了语言模型持续学习中的核心痛点——遗忘问题,做模型微调或持续训练的团队可以直接用自生成回放方法,省去存储旧样本的麻烦,值得关注。原文
12:20arXiv cs.LG@Jun-Tao Tang, Yu-Cheng Shi, Zhen-Hao Xie, Da-Wei Zhou精选多模态大语言模型(MLLMs)通过指令调优将多样任务统一为指令遵循框架,但实际部署需要持续适应新任务,这催生了多模态持续指令调优(MCIT)。然而,当前MCIT研究受限于工程瓶颈:现有方法通常直接修改基础MLLM代码库,导致实现开销大、架构特定、代码复用和公平比较困难。为此,研究者提出Prism,一个插件式可复现代码库,通过轻量级插件注册机制将算法开发与骨干实现分离,无需修改底层MLLM代码即可集成新策略。Prism原生支持大规模训练流水线,确保可复现和可扩展的MCIT实验。代码已开源。论文多模态大语言模型持续学习指令调优开源/仓库Prism推荐理由:Prism解决了MCIT研究中代码碎片化和复现难的问题,做多模态持续学习的团队可以直接用这个插件式框架加速实验,省去大量工程重复劳动。原文
11:35arXiv cs.LG@Javad Parsa, Enis Simsar, Amir Joudaki, Thomas Hofmann, André M. H. Teixeira精选SeqLoRA 是一种针对文本到图像扩散模型的高效微调方法,解决了多概念组合生成中的表示干扰问题。现有模块化方法要么依赖昂贵的后处理融合,要么冻结适配子空间,限制了表达力和概念保真度。SeqLoRA 通过双层优化联合优化两个 LoRA 因子,并建立强收敛保证,从理论上证明学习 LoRA 基比固定基方法更有效减少干扰。实验显示,SeqLoRA 在多达 101 个概念上提升了身份保持和可扩展性,无需昂贵融合,减少了属性干扰。论文LoRA多概念生成扩散模型持续学习双层优化推荐理由:做多概念图像生成的团队终于有了一个兼顾保真度和可扩展性的方案——SeqLoRA 用双层优化解决了 LoRA 的干扰问题,支持上百个概念组合,做个性化扩散模型的开发者值得一试。原文
11:10arXiv cs.AI@Pilchen Hippolyte, Fabre Romain, Signe Talla Franck, Perez Patrick, Grave Edouard精选72°该研究探讨了预训练数据顺序对大语言模型获取时间敏感事实知识的影响。作者构建了包含7000多个时间锚定问题的基准测试,并训练了6B参数模型,比较了按时间顺序预训练与标准随机打乱预训练的效果。结果显示,按时间顺序训练的模型在通用语言理解和常识方面与随机基线相当,但事实知识更新、更精确。随机预训练模型在旧数据上表现更好,可能是因为事实重复更多。研究为LLM持续学习提供了基础,并开源了代码、检查点和数据集。论文大语言模型预训练数据时序性事实知识持续学习推荐理由:这项研究揭示了数据顺序对模型知识时效性的关键影响,做LLM预训练或持续学习的团队值得关注,可以直接参考其基准和训练方法。原文
16:36Gary Marcus@GaryMarcus一项新研究揭示,即使经过超万亿美元的投资,LLM智能体的记忆系统仍存在根本性缺陷。研究发现,持续更新的记忆(如压缩后的可复用记忆)不仅无法提升性能,有时甚至比完全没有记忆的表现更差,包括在已解决过的问题上。相比之下,保留原始片段的“情景记忆”更为可靠。这表明当前模型尚无法从经验中学习可复用的抽象知识,而这正是智能体持续改进的关键能力。论文LLM智能体记忆机制可靠性研究论文持续学习推荐理由:做AI智能体开发的团队值得关注——记忆机制是当前瓶颈,这篇论文直接挑战了“记忆越多越好”的假设,看完会重新思考你的记忆策略。原文
19:12arXiv cs.AI@Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer, Inderjit S Dhillon, Rishabh Agarwal, Devvrit Khatri精选70°这篇论文提出了一种名为Fast-Slow Training(FST)的框架,将LLM的参数视为“慢权重”,优化后的上下文视为“快权重”。快权重通过文本反馈吸收任务特定信息,慢权重则保持基础模型的一般推理能力。实验表明,FST在推理任务上比仅用强化学习(慢学习)样本效率提升3倍,且性能上限更高。FST训练的模型与基础LLM的KL散度降低70%,显著减少灾难性遗忘,并保持可塑性——在连续学习场景中,FST能持续获取新任务,而参数仅更新的RL方法会停滞。论文持续学习灾难性遗忘上下文学习强化学习Fast-Slow Training推荐理由:这篇论文解决了LLM在持续学习中灾难性遗忘和可塑性丧失的痛点,做模型微调、持续学习或Agent长期记忆的团队值得关注——FST框架让你不用在参数更新和上下文学习之间二选一,直接结合两者优势。原文