SETA：稀疏子空间专家共享解决LLM持续学习灾难性遗忘

精选理由

SETA解决了LLM持续学习中任务知识冲突的核心痛点，做多任务模型训练或知识迁移的团队可以直接参考其专家分解思路，值得关注其稀疏子空间设计。

AI 摘要

大型语言模型在持续学习中面临可塑性-稳定性困境，学习新任务常导致旧知识灾难性遗忘。现有方法统一处理参数，无法区分任务特定知识与共享能力。SETA框架通过自适应稀疏子空间分解，将知识分离为任务特定专家和共享专家，利用弹性锚定和路由正则化保护共享知识，统一门控网络自动检索正确专家组合。在LLaMA-2 7B和Qwen3-4B上的实验表明，SETA在多个领域基准上达到或超越现有方法，尤其擅长保留早期任务知识并改善反向迁移。

AI 翻译 · 中文

arXiv cs.AIContinual learning in Large Language Models (LLMs) is hindered by the plasticity-stability dilemma, where acquiring new capabilities often leads to catastrophic forgetting of previous knowledge. Existing methods typicall…

阅读原文