Claude Opus

§ 01综述

Claude Opus 是 Anthropic 最新一代旗舰模型，近期在编程、自主智能体与长周期任务领域引发关注。尽管权威基准测试如 DeepSWE 显示其在代码任务上比 Claude Code 领先 10 个百分点，但在 AutoLab 的长周期研究基准中，Opus 却因“缺乏坚持”而失败，暴露了智能体在持续自主执行上的深层短板。

基准测试表现分化：Datacurve 发布的 DeepSWE 基准（113 个任务，覆盖 5 种语言）中，Claude Opus 超越先前版本的 Claude Code 达 10 个百分点 (DeepSWE 基准发布：113 个任务覆盖 5 种语言，Claude Opus 超 Claude Code 10 个百分点)。但在 AutoLab 的强 AI 智能体长周期研究基准上，Opus 仍因“缺乏坚持”而失败，表明其在长时间自主规划与执行上尚未成熟 (AutoLab 基准测试：强 AI 智能体在长周期研究中仍因缺乏坚持而失败)。
实战自主运行技巧涌现：多位早期用户分享了让 Claude Opus 自主运行数小时甚至数天的经验，包括合理设置任务分解、中断恢复与上下文管理 (Opus 自主运行数小时/天的 5 个技巧；让 Claude Opus 长时自主运行的 5 条核心实战建议)。
代码生成验证无漏洞：有开发者测试 Opus 4.5 编写虚拟机代码，并通过 Mythos 工具验证发现未触发严重漏洞 (Opus 4.5 写 VM，Mythos 验证无严重漏洞)。

当前焦点：Claude Opus 在多个新基准上展现了强劲的代码与理解能力，但其在“坚持”上的不足反映了当前强 AI 智能体未能解决长周期任务的持续信任问题。未来观察点包括：Anthropic 是否会为 Opus 引入专门的长任务管理机制，以及社区总结的自主运行技巧能否系统性地弥补模型本身的弱点。

§ 02相关报道06 条在档

§ 03邻近话题