23:47AWS Machine Learning Blog@Madhu Parthasarathy精选71°Amazon Bedrock AgentCore新增多项能力,支持连接组织、网页和付费知识源,扩展智能体的知识范围。新工具帮助团队在生产环境中定位和修复问题,并实施随智能体能力提升自动扩展的控制机制。这些功能使开发者能更快构建更强大的智能体,并以规模化方式治理和持续改进。AI产品Amazon BedrockAgentCore智能体知识源持续学习1 个信源在谈推荐理由:AWS刚更新了Bedrock AgentCore,现在能连更多知识源,还加了监控和自动控制,做智能体更省心了。原文
13:10rohanpaul_ai@rohanpaul_ai精选AGENTCL 提出一个评估语言智能体持续学习能力的新基准,通过构建任务流来测试智能体是否真正从经验中学习。该基准对比了“组合式”任务流(后续任务可复用前序任务的代码函数、研究证据或工作流)与“朴素”任务流(任务同领域但无明确复用关系)。研究发现,当前记忆方法在任务连接明显时能复用过往经验,但在任务差异较大时仍难以避免混淆。AGENTCL 旨在解决现有基准中任务关系不清晰导致的评估偏差问题。论文AGENTCL智能体持续学习记忆基准推荐理由:看智能体记忆到底行不行原文
12:34arXiv cs.LG@Andries Rosseau, Robert Müller, Ann Nowé精选深度神经网络在非平稳环境下的持续训练常导致可塑性逐渐丧失,限制进一步学习。本文首次将可塑性与经验神经正切核联系起来,并识别出动态等距性(各层雅可比奇异值接近1)是保持持续学习可塑性的关键机制。作者重新审视了一类几乎处处等距且保持通用Lipschitz函数逼近能力的网络,证明近动态等距性与表达性非线性表示兼容。针对通用架构,提出了高效的等距促进正则化方案,并发现其能重新激活休眠的ReLU单元。基于此,开发了AdamO优化器,将等距正则化与梯度更新解耦。在多个持续学习基准上,该方法一致匹配或超越现有方法。论文持续学习可塑性动态等距性优化器AdamO推荐理由:持续学习中的可塑性丧失是困扰AI训练的核心难题,本文从理论到实践给出了新解法——做持续学习、强化学习或终身学习的开发者,值得关注这个等距性视角。原文
02:18rohanpaul_ai@rohanpaul_ai精选72°一篇新论文提出CL-BENCH基准,测试AI智能体是否真正从经验中学习,而非仅依赖记忆。研究发现,简单的全上下文学习优于专门的记忆系统,Claude Sonnet 4.6在纯上下文模式下取得最佳成绩。该基准涵盖编码、数据库、预测等6个领域,要求智能体在连续任务中发现模式。结果表明,当前记忆密集型AI智能体并未比保持完整对话上下文更可靠地学习。这提醒我们,长期运行的AI智能体需要更好的方式来记住有用经验、遗忘过时信息并适应环境变化。论文智能体基准测试持续学习记忆系统Claude Sonnet推荐理由:这篇论文戳破了AI智能体“越用越聪明”的幻觉,做智能体开发或长期任务自动化的团队值得看看——你的系统可能只是在记笔记,而不是真在学习。原文
10:12arXiv cs.AI@Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, Ali Jannesari精选大型语言模型在持续学习中面临可塑性-稳定性困境,学习新任务常导致旧知识灾难性遗忘。现有方法统一处理参数,无法区分任务特定知识与共享能力。SETA框架通过自适应稀疏子空间分解,将知识分离为任务特定专家和共享专家,利用弹性锚定和路由正则化保护共享知识,统一门控网络自动检索正确专家组合。在LLaMA-2 7B和Qwen3-4B上的实验表明,SETA在多个领域基准上达到或超越现有方法,尤其擅长保留早期任务知识并改善反向迁移。论文持续学习灾难性遗忘专家混合LLM稀疏子空间推荐理由:SETA解决了LLM持续学习中任务知识冲突的核心痛点,做多任务模型训练或知识迁移的团队可以直接参考其专家分解思路,值得关注其稀疏子空间设计。原文
03:17elvis@omarsar0精选Continual Learning Bench 是一个新的基准测试,用于评估智能体是否真正从经验中学习。研究发现,在六个专家验证的领域内,简单的上下文学习(ICL)表现优于专门为记忆管理设计的系统。该基准引入了一个增益指标来隔离真正的学习效果,结果显示智能体经常过度拟合即时观察或未能跨实例复用知识。这表明许多记忆架构实际上增加了开销而非学习能力。论文持续学习基准测试记忆系统上下文学习智能体推荐理由:如果你在构建或研究持续学习智能体,这个基准测试直接挑战了当前记忆系统的有效性——简单ICL反而更好,值得所有AI研究者点开看看。原文
13:22arXiv cs.LG@Marius Dragoi, Ioana Pintilie, Alexandra Dragomir, Antonio Barbalau, Florin Brad精选TailLoR 是一种基于谱分解的参数高效微调方法,专为持续学习设计。它利用预训练权重的奇异基 U 和 V 作为固定参考框架,学习对奇异值矩阵的低秩更新。通过软谱惩罚抑制与主导奇异方向对齐的更新,减少干扰,同时将细粒度适应引导到高度灵活的长尾谱坐标中。该方法在持续学习场景中有效平衡了旧知识保留与新任务适应。论文持续学习参数高效微调谱分解低秩更新TailLoR推荐理由:持续学习是让模型不断吸收新知识而不遗忘旧知识的关键技术,做模型微调或增量学习的开发者可以关注 TailLoR 如何用谱分解优雅解决灾难性遗忘问题。原文
10:50arXiv cs.AI@Xiaoyang Jiang, Yanlai Yang, Kenneth A. Norman, Brenden Lake, Mengye Ren精选儿童从连续的自我中心经验流中学习词汇,而现有神经网络模型通常对数据进行数百轮随机打乱训练,与真实学习过程不符。研究者提出BabyCL框架,以单次时间顺序处理SAYCam数据集,结合流式视觉表示学习和图像-文本对比目标。BabyCL采用多阶段时间分割和双回放缓冲区,在匹配优化预算下,在SAYCam Labeled-S 4AFC基准上优于流式学习基线,显著缩小了与离线训练的差距。消融实验表明,其增益对时间分割窗口长度和回放缓冲区驱逐规则具有鲁棒性。这项工作表明,在更接近儿童实际体验的训练条件下,有意义的词-指代映射可以涌现。论文持续学习多模态学习儿童认知对比学习SAYCam推荐理由:BabyCL解决了持续学习场景下多模态对齐的难题,做认知科学或持续学习的研究者可以直接参考其双回放缓冲区设计,值得关注。原文
10:45arXiv cs.LG@Ali Behrouz, Farnoosh Hashemi, Vahab Mirrokni精选受人类学习过程启发,研究者提出了一种名为“睡眠”的范式,让大语言模型能够持续学习,将短期脆弱记忆蒸馏为稳定的长期知识。该范式包含两个阶段:记忆巩固(通过知识播种将小模型记忆蒸馏到大模型)和梦境(模型通过强化学习生成合成数据自我改进)。实验证明,该方法在长时任务、持续学习、知识整合和少样本泛化上效果显著。这项工作解决了LLM无法持续更新长期参数的核心痛点,为模型终身学习提供了新思路。论文持续学习记忆巩固蒸馏强化学习LLM推荐理由:做持续学习和模型终身优化的研究者值得关注——它用“睡眠”机制解决了LLM记忆遗忘问题,比传统微调更接近人类学习方式,看完会有启发。原文
10:14rohanpaul_ai@rohanpaul_ai精选72°论文提出 FluxMem 记忆系统,将智能体记忆视为不断变化的连接网络,而非静态文件柜。它存储事实、任务片段和可复用技能作为图中的连接点,在任务执行时先收集有用记忆,再根据反馈修复连接(增删链接或调整细节)。长期运行中,重复成功的任务路径会自动转化为可复用技能。在长对话记忆、网页导航和通用助手任务上,FluxMem 取得显著提升,包括 LoCoMo 上 95.06% 平均准确率和 GAIA 上 12.73 个百分点的增益。该研究将智能体记忆从“存储-检索”范式转向“持续修复和强化有效连接”。论文智能体记忆系统图结构FluxMem持续学习推荐理由:做智能体记忆系统的开发者终于有了一个跳出传统检索范式的方案——FluxMem 用图结构动态修复连接,实测效果显著,值得深入研究其实现细节。原文
10:19marktechpost@Michal Sutter精选72°Trajectory 与 UC Berkeley Sky Lab 和 Anyscale 合作,构建了一个用于持续学习的并发多 LoRA 训练栈。该方案将每个强化学习实验映射到始终热运行的引擎上的专用 LoRA 适配器,相比单租户基线实现了 2.81 倍的端到端实验吞吐量提升,且无奖励回归。代码已在 NovaSky-AI/SkyRL 开源。这一进展解决了持续学习中多实验并行效率低下的问题,对强化学习研究和工程团队有直接价值。AI模型LoRA持续学习强化学习开源/仓库训练栈推荐理由:做强化学习持续训练的团队终于有了高效的并行方案——2.81 倍吞吐量提升且不损失奖励,直接开源可用,建议试试。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
10:25Lenny Rachitsky@lennysan精选76°Trajectory 是一家研究实验室兼产品公司,宣布获得 1500 万美元融资,投资方包括 Conviction、Bessemer Venture Partners 等。该公司正在构建持续学习平台,能够从产品使用数据中提取信号,让企业持续后训练大规模智能体模型,使其性能超越前沿模型。Trajectory 已与 Clay、Harvey、Decagon 等 AI 原生公司合作,部分已进入生产阶段。团队汇聚了来自 DeepMind、OpenAI、Apple、Meta 等机构的顶尖研究人员。AI产品持续学习智能体后训练融资Trajectory10 个信源在谈推荐理由:持续学习是智能体落地的关键瓶颈,Trajectory 用产品使用数据后训练模型,做 AI 智能体的团队值得关注其技术路线。原文
13:33marktechpost@Asif Razzaq精选来自新加坡国立大学、MIT和A*STAR的研究人员提出了MEMO框架,该框架将语料库知识编码到一个独立的可训练记忆模型中,无需修改大语言模型(LLM)的参数。MEMO通过模块化设计,让LLM能够动态访问外部记忆,从而高效学习新知识,同时保持原有模型能力不变。这一方法解决了LLM在持续学习中的灾难性遗忘问题,并降低了更新成本。实验表明,MEMO在知识注入任务上表现优异,且不影响模型原有性能。论文记忆模型模块化框架持续学习LLM知识注入推荐理由:MEMO解决了LLM持续学习中的核心痛点——无需重训模型就能注入新知识,做知识密集型应用(如问答、检索增强生成)的团队可以直接参考,值得关注。原文
12:20arXiv cs.LG@Martin Marek, Dongkyu Cho, Shikai Qiu, Rumi Chunara, Pavel Izmailov, Andrew Gordon Wilson精选该论文研究了语言模型在新任务训练时遗忘旧知识的问题,并提出利用模型自身生成的样本作为回放数据,几乎可以消除遗忘。研究发现,当模型容量接近饱和时,遗忘仍会发生,因为模型无法吸收新信息而不覆盖旧知识。在容量充足的情况下,低学习率可以减少遗忘但需要更多训练步骤,而自生成回放打破了这一权衡,允许高学习率微调而不遗忘。这一方法避免了传统回放需要存储旧样本的不可行性,为持续学习提供了实用方案。论文语言模型遗忘持续学习自生成回放容量推荐理由:这篇论文解决了语言模型持续学习中的核心痛点——遗忘问题,做模型微调或持续训练的团队可以直接用自生成回放方法,省去存储旧样本的麻烦,值得关注。原文
12:20arXiv cs.LG@Jun-Tao Tang, Yu-Cheng Shi, Zhen-Hao Xie, Da-Wei Zhou精选多模态大语言模型(MLLMs)通过指令调优将多样任务统一为指令遵循框架,但实际部署需要持续适应新任务,这催生了多模态持续指令调优(MCIT)。然而,当前MCIT研究受限于工程瓶颈:现有方法通常直接修改基础MLLM代码库,导致实现开销大、架构特定、代码复用和公平比较困难。为此,研究者提出Prism,一个插件式可复现代码库,通过轻量级插件注册机制将算法开发与骨干实现分离,无需修改底层MLLM代码即可集成新策略。Prism原生支持大规模训练流水线,确保可复现和可扩展的MCIT实验。代码已开源。论文多模态大语言模型持续学习指令调优开源/仓库Prism推荐理由:Prism解决了MCIT研究中代码碎片化和复现难的问题,做多模态持续学习的团队可以直接用这个插件式框架加速实验,省去大量工程重复劳动。原文
11:35arXiv cs.LG@Javad Parsa, Enis Simsar, Amir Joudaki, Thomas Hofmann, André M. H. Teixeira精选SeqLoRA 是一种针对文本到图像扩散模型的高效微调方法,解决了多概念组合生成中的表示干扰问题。现有模块化方法要么依赖昂贵的后处理融合,要么冻结适配子空间,限制了表达力和概念保真度。SeqLoRA 通过双层优化联合优化两个 LoRA 因子,并建立强收敛保证,从理论上证明学习 LoRA 基比固定基方法更有效减少干扰。实验显示,SeqLoRA 在多达 101 个概念上提升了身份保持和可扩展性,无需昂贵融合,减少了属性干扰。论文LoRA多概念生成扩散模型持续学习双层优化推荐理由:做多概念图像生成的团队终于有了一个兼顾保真度和可扩展性的方案——SeqLoRA 用双层优化解决了 LoRA 的干扰问题,支持上百个概念组合,做个性化扩散模型的开发者值得一试。原文
11:10arXiv cs.AI@Pilchen Hippolyte, Fabre Romain, Signe Talla Franck, Perez Patrick, Grave Edouard精选72°该研究探讨了预训练数据顺序对大语言模型获取时间敏感事实知识的影响。作者构建了包含7000多个时间锚定问题的基准测试,并训练了6B参数模型,比较了按时间顺序预训练与标准随机打乱预训练的效果。结果显示,按时间顺序训练的模型在通用语言理解和常识方面与随机基线相当,但事实知识更新、更精确。随机预训练模型在旧数据上表现更好,可能是因为事实重复更多。研究为LLM持续学习提供了基础,并开源了代码、检查点和数据集。论文大语言模型预训练数据时序性事实知识持续学习推荐理由:这项研究揭示了数据顺序对模型知识时效性的关键影响,做LLM预训练或持续学习的团队值得关注,可以直接参考其基准和训练方法。原文
19:12arXiv cs.AI@Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer, Inderjit S Dhillon, Rishabh Agarwal, Devvrit Khatri精选70°这篇论文提出了一种名为Fast-Slow Training(FST)的框架,将LLM的参数视为“慢权重”,优化后的上下文视为“快权重”。快权重通过文本反馈吸收任务特定信息,慢权重则保持基础模型的一般推理能力。实验表明,FST在推理任务上比仅用强化学习(慢学习)样本效率提升3倍,且性能上限更高。FST训练的模型与基础LLM的KL散度降低70%,显著减少灾难性遗忘,并保持可塑性——在连续学习场景中,FST能持续获取新任务,而参数仅更新的RL方法会停滞。论文持续学习灾难性遗忘上下文学习强化学习Fast-Slow Training推荐理由:这篇论文解决了LLM在持续学习中灾难性遗忘和可塑性丧失的痛点,做模型微调、持续学习或Agent长期记忆的团队值得关注——FST框架让你不用在参数更新和上下文学习之间二选一,直接结合两者优势。原文