长上下文作为大语言模型的关键能力,近期在效率、鲁棒性及智能体应用层面取得多项进展,也暴露出新的局限。NVIDIA 发布的 Nemotron-5 (Step 3.7 Flash) 以 198B MoE 架构实现 256K 上下文,仅激活 11B 参数,为长序列推理提供了高效路径 (NVIDIA 发布 Step 3.7 Flash:198B MoE 模型,11B 活跃参数,256K 上下文)。MiniMax 则预告 M3 模型将支持 1M 上下文并实现 10 倍以上速度提升,进一步突破上下文长度的天花板 (MiniMax M3 即将发布,1M上下文速度提升10倍以上)。然而,长上下文的脆弱性也受到关注:研究发现,位于长文本开头的少量误导信息即可严重污染模型推理,产生“第一滴墨水效应” (长上下文AI易被少量误导信息毒害:第一滴墨水效应)。为提升长时运行智能体的稳定性,CMU 提出类似睡眠的记忆固化机制,让模型在离线阶段整合长序列信息,从而提升复杂推理性能 (CMU研究:LLM“睡眠”机制提升复杂推理性能;语言模型需要睡眠:长时运行智能体通过记忆整合提升性能)。此外,新架构 Oryx 尝试混合注意力与线性循环,在长序列处理中灵活切换,降低计算开销 (Oryx:灵活切换注意力与线性循环的混合序列模型)。当前焦点在于:如何在扩展上下文的同时维持信息保真度,以及如何通过记忆管理或混合架构解决长序列中的注意力稀释与干扰问题。未来趋势上,长上下文或将与智能体系统深度耦合,但需解决当前存在的“容量-可靠性”矛盾。
№长上下文·general
长上下文
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-15
- 累计提及
- 82
§ 01综述
§ 02相关报道10 条在档
- 01Z.ai 发布 GLM-5.2,100万token上下文与两种思考模式
- 02智谱AI开源GLM-5.2,支持100万token上下文
- 03Gary Marcus称所有模型已被越狱,呼吁更好的技术而非选择性执法
- 04华为云与MiniMax M3模型开源首发适配,提供Tokens算力支持
- 05MiniMax M3 发布:1M 上下文、稀疏注意力、开源模型
- 06MiniMax M3 发布:长上下文多模态模型,支持文本/图像/视频推理
- 07月之暗面开源 Kimi K2.7 Code 编程模型,预告 6 倍速高速版
- 08DeepSeekV4 上下文内存压缩至1/10,FlashMemory 显存占用仅1.3GB
- 09Untied Ulysses 让 Llama 3B 在单节点训练 3M 上下文
- 10Recursive Agent Harness:递归智能体框架提升长上下文推理
§ 03邻近话题