№长任务·general
长任务
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-12
- 累计提及
- 7
§ 01综述
长任务(Long-Horizon Tasks)指需要多步推理、长时间执行或依赖外部工具协作的复杂AI任务,是当前智能体系统从对话助手向自主执行能力跃迁的核心瓶颈。
任务编排与记忆管理突破:OpenAI Codex上线/goal功能,让开发者通过单一指令让模型自动分解并执行长任务,大幅降低人工干预(OpenAI Codex /goal功能正式上线)。行业实践者也分享使用/goal命令前的检查清单,确保长任务稳定执行(用/goal命令让长任务稳定执行)。
模型与系统级性能提升:Claude Opus 4.8在Cosmos平台上显著提升了长任务执行能力(Claude Opus 4.8上线Cosmos);阿里Qwen 3.7 Max成功完成长达35小时的自主任务,引发海外开发者关注(阿里Qwen 3.7 Max 35小时自主任务跑完)。腾讯开源TencentDB Agent Memory,通过智能上下文压缩使长任务Token消耗降低61%(腾讯开源TencentDB Agent Memory)。
研究揭示当前瓶颈:AdaCoM提出用小模型动态管理上下文,在Agent长任务中性能提升39%,直指上下文管理是长任务的核心难题(AdaCoM用小模型管理上下文),而Claude Code的长任务执行暴露了复杂智能体系统在自我修正、状态追踪等方面的深层痛点(Claude Code长任务执行暴露痛点)。
当前焦点:长任务执行正从“能否完成”转向“稳定可靠地完成”,核心挑战包括:上下文记忆管理(避免信息遗忘)、工具调用链的鲁棒性、以及超长任务中的自我纠错能力。
未来观察点:各厂商推出的专属命令(如/goal)与开源记忆压缩方案(如TencentDB Agent Memory)能否标准化;长任务执行能力是否会成为下一代AI开发平台的核心竞争维度。