Claude Opus 是 Anthropic 最新一代旗舰模型,近期在编程、自主智能体与长周期任务领域引发关注。尽管权威基准测试如 DeepSWE 显示其在代码任务上比 Claude Code 领先 10 个百分点,但在 AutoLab 的长周期研究基准中,Opus 却因“缺乏坚持”而失败,暴露了智能体在持续自主执行上的深层短板。
- 近期主要进展如下:
- 基准测试表现分化:Datacurve 发布的 DeepSWE 基准(113 个任务,覆盖 5 种语言)中,Claude Opus 超越先前版本的 Claude Code 达 10 个百分点 (DeepSWE 基准发布:113 个任务覆盖 5 种语言,Claude Opus 超 Claude Code 10 个百分点)。但在 AutoLab 的强 AI 智能体长周期研究基准上,Opus 仍因“缺乏坚持”而失败,表明其在长时间自主规划与执行上尚未成熟 (AutoLab 基准测试:强 AI 智能体在长周期研究中仍因缺乏坚持而失败)。
- 实战自主运行技巧涌现:多位早期用户分享了让 Claude Opus 自主运行数小时甚至数天的经验,包括合理设置任务分解、中断恢复与上下文管理 (Opus 自主运行数小时/天的 5 个技巧;让 Claude Opus 长时自主运行的 5 条核心实战建议)。
- 代码生成验证无漏洞:有开发者测试 Opus 4.5 编写虚拟机代码,并通过 Mythos 工具验证发现未触发严重漏洞 (Opus 4.5 写 VM,Mythos 验证无严重漏洞)。
当前焦点:Claude Opus 在多个新基准上展现了强劲的代码与理解能力,但其在“坚持”上的不足反映了当前强 AI 智能体未能解决长周期任务的持续信任问题。未来观察点包括:Anthropic 是否会为 Opus 引入专门的长任务管理机制,以及社区总结的自主运行技巧能否系统性地弥补模型本身的弱点。