长任务·general

长任务

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
7
§ 01综述

长任务(Long-Horizon Tasks)指需要多步推理、长时间执行或依赖外部工具协作的复杂AI任务,是当前智能体系统从对话助手向自主执行能力跃迁的核心瓶颈。

  • 任务编排与记忆管理突破:OpenAI Codex上线/goal功能,让开发者通过单一指令让模型自动分解并执行长任务,大幅降低人工干预(OpenAI Codex /goal功能正式上线)。行业实践者也分享使用/goal命令前的检查清单,确保长任务稳定执行(用/goal命令让长任务稳定执行)。
  • 模型与系统级性能提升:Claude Opus 4.8在Cosmos平台上显著提升了长任务执行能力(Claude Opus 4.8上线Cosmos);阿里Qwen 3.7 Max成功完成长达35小时的自主任务,引发海外开发者关注(阿里Qwen 3.7 Max 35小时自主任务跑完)。腾讯开源TencentDB Agent Memory,通过智能上下文压缩使长任务Token消耗降低61%(腾讯开源TencentDB Agent Memory)。
  • 研究揭示当前瓶颈:AdaCoM提出用小模型动态管理上下文,在Agent长任务中性能提升39%,直指上下文管理是长任务的核心难题(AdaCoM用小模型管理上下文),而Claude Code的长任务执行暴露了复杂智能体系统在自我修正、状态追踪等方面的深层痛点(Claude Code长任务执行暴露痛点)。
  • 当前焦点:长任务执行正从“能否完成”转向“稳定可靠地完成”,核心挑战包括:上下文记忆管理(避免信息遗忘)、工具调用链的鲁棒性、以及超长任务中的自我纠错能力。

    未来观察点:各厂商推出的专属命令(如/goal)与开源记忆压缩方案(如TencentDB Agent Memory)能否标准化;长任务执行能力是否会成为下一代AI开发平台的核心竞争维度。

    § 02相关报道08 条在档
    1. 01
      用 /goal 命令让长任务稳定执行,Jim Liu 分享实用技巧
      宝玉
    2. 02
      Karpathy 盛赞 Claude Fable 5:质感飞跃,长任务差距明显
      AI Will
    3. 03
      AdaCoM:用小模型管理上下文,让AI Agent长任务性能提升39%
      rohanpaul_ai
    4. 04
      Claude Code 长任务执行暴露复杂智能体系统痛点
      elvis
    5. 05
      Claude Opus 4.8 上线 Cosmos,长任务执行能力提升
      Augment Code
    6. 06
      阿里 Qwen 3.7 Max 35 小时自主任务跑完,海外开发者惊叹
      pandaily
    7. 07
      OpenAI Codex /goal 功能正式上线,长任务自动执行
      @OpenAIDevs
    8. 08
      腾讯开源 TencentDB Agent Memory,长任务 Token 消耗降低 61%
      IT之家
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/%E9%95%BF%E4%BB%BB%E5%8A%A1