128k · AI 话题观测

§ 01综述

近期，围绕“128k”这一上下文长度关键词，AI 领域在降低推理成本与提升解码效率方面取得多项突破。背景上，长上下文（如128k token）虽能提升模型理解能力，但推理时显存占用高、解码速度慢，成为落地瓶颈。

腾讯混元提出Stem稀疏注意力算法，通过动态稀疏模式将首字延迟降低3.6倍，在不牺牲质量的情况下显著加速长文本生成（腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍）。
CLSA（跨层稀疏注意力）实现7.6倍解码加速，通过跨层共享注意力模式减少计算量，尤其适用于128k级别长序列推理（CLSA：跨层稀疏注意力实现7.6倍解码加速）。
端侧模型LFM2.5-8B-A1B采用MoE架构，总参数8.3B仅激活1.5B，在128k上下文下实现本地Agent任务，性能接近4倍参数模型，展示稀疏激活在长上下文场景的效率优势（Liquid AI LFM2.5-8B-A1B：1.5B活跃参数跑本地Agent，接近4倍参数模型）。

当前焦点在于稀疏注意力与MoE的组合能否进一步降低128k长度下的推理能耗，同时保持模型准确性。未来观察点包括这些技术在实时语音交互（如GPT Realtime 2.0催生的应用）中的实际表现，以及跨层稀疏注意力对不同长度上下文的泛化能力。

§ 02相关报道05 条在档

§ 03邻近话题