近期,围绕“128k”这一上下文长度关键词,AI 领域在降低推理成本与提升解码效率方面取得多项突破。背景上,长上下文(如128k token)虽能提升模型理解能力,但推理时显存占用高、解码速度慢,成为落地瓶颈。
- 主要进展包括:
- 腾讯混元提出Stem稀疏注意力算法,通过动态稀疏模式将首字延迟降低3.6倍,在不牺牲质量的情况下显著加速长文本生成(腾讯混元提出 Stem 稀疏注意力算法,首字延迟降低 3.6 倍)。
- CLSA(跨层稀疏注意力)实现7.6倍解码加速,通过跨层共享注意力模式减少计算量,尤其适用于128k级别长序列推理(CLSA:跨层稀疏注意力实现7.6倍解码加速)。
- 端侧模型LFM2.5-8B-A1B采用MoE架构,总参数8.3B仅激活1.5B,在128k上下文下实现本地Agent任务,性能接近4倍参数模型,展示稀疏激活在长上下文场景的效率优势(Liquid AI LFM2.5-8B-A1B:1.5B活跃参数跑本地Agent,接近4倍参数模型)。
当前焦点在于稀疏注意力与MoE的组合能否进一步降低128k长度下的推理能耗,同时保持模型准确性。未来观察点包括这些技术在实时语音交互(如GPT Realtime 2.0催生的应用)中的实际表现,以及跨层稀疏注意力对不同长度上下文的泛化能力。