精选理由
SETA解决了LLM持续学习中任务知识冲突的核心痛点,做多任务模型训练或知识迁移的团队可以直接参考其专家分解思路,值得关注其稀疏子空间设计。
大型语言模型在持续学习中面临可塑性-稳定性困境,学习新任务常导致旧知识灾难性遗忘。现有方法统一处理参数,无法区分任务特定知识与共享能力。SETA框架通过自适应稀疏子空间分解,将知识分离为任务特定专家和共享专家,利用弹性锚定和路由正则化保护共享知识,统一门控网络自动检索正确专家组合。在LLaMA-2 7B和Qwen3-4B上的实验表明,SETA在多个领域基准上达到或超越现有方法,尤其擅长保留早期任务知识并改善反向迁移。
AI 翻译 · 中文
大型语言模型在持续学习中面临可塑性-稳定性困境,学习新任务常导致旧知识灾难性遗忘。现有方法统一处理参数,无法区分任务特定知识与共享能力。SETA框架通过自适应稀疏子空间分解,将知识分离为任务特定专家和共享专家,利用弹性锚定和路由正则化保护共享知识,统一门控网络自动检索正确专家组合。在LLaMA-2 7B和Qwen3-4B上的实验表明,SETA在多个领域基准上达到或超越现有方法,尤其擅长保留早期任务知识并改善反向迁移。
Continual learning in Large Language Models (LLMs) is hindered by the plasticity-stability dilemma, where acquiring new capabilities often leads to catastrophic forgetting of previous knowledge. Existing methods typicall…