长任务 · AI 话题观测

§ 01综述

长任务（Long-Horizon Tasks）指需要多步推理、长时间执行或依赖外部工具协作的复杂AI任务，是当前智能体系统从对话助手向自主执行能力跃迁的核心瓶颈。

任务编排与记忆管理突破：OpenAI Codex上线/goal功能，让开发者通过单一指令让模型自动分解并执行长任务，大幅降低人工干预（OpenAI Codex /goal功能正式上线）。行业实践者也分享使用/goal命令前的检查清单，确保长任务稳定执行（用/goal命令让长任务稳定执行）。

模型与系统级性能提升：Claude Opus 4.8在Cosmos平台上显著提升了长任务执行能力（Claude Opus 4.8上线Cosmos）；阿里Qwen 3.7 Max成功完成长达35小时的自主任务，引发海外开发者关注（阿里Qwen 3.7 Max 35小时自主任务跑完）。腾讯开源TencentDB Agent Memory，通过智能上下文压缩使长任务Token消耗降低61%（腾讯开源TencentDB Agent Memory）。

研究揭示当前瓶颈：AdaCoM提出用小模型动态管理上下文，在Agent长任务中性能提升39%，直指上下文管理是长任务的核心难题（AdaCoM用小模型管理上下文），而Claude Code的长任务执行暴露了复杂智能体系统在自我修正、状态追踪等方面的深层痛点（Claude Code长任务执行暴露痛点）。

当前焦点：长任务执行正从“能否完成”转向“稳定可靠地完成”，核心挑战包括：上下文记忆管理（避免信息遗忘）、工具调用链的鲁棒性、以及超长任务中的自我纠错能力。

未来观察点：各厂商推出的专属命令（如/goal）与开源记忆压缩方案（如TencentDB Agent Memory）能否标准化；长任务执行能力是否会成为下一代AI开发平台的核心竞争维度。

§ 02相关报道08 条在档

§ 03邻近话题