Anthropic 于近期发布 Claude Opus 4.8,这是其旗舰模型的一次重要更新,主要围绕可靠性、编码能力和 Agent 任务执行效率进行提升。官方称新模型在编程和智能体任务上表现更强,并通过了 200+ 前端测试,与 Gemini 3.1 Pro 等竞品对比中展现出竞争力。
- 主要进展包括:
- 推理与自我纠错能力升级:Claude Opus 4.8 在复杂推理时能更主动地识别并修正自身错误,例如在生成高细节波音 747 等任务中表现突出(ZenMux 免费体验 Claude Opus 4.8,一次生成高细节波音 747);官方也明确提及“诚实改进”,即减少幻觉并提高事实准确性(Anthropic 发布 Claude Opus 4.8:编程与智能体任务性能提升)。
- 速度与成本优化:新增“快模式”,推理速度提升 2.5 倍,价格降低 3 倍,显著降低了高频调用门槛(Claude Opus 4.8 快模式:速度提升 2.5 倍,价格降低 3 倍)。
- 开发工具链增强:Claude Code 推出 Dynamic Workflows 功能,使 AI agent 能自主担任项目经理角色,曾用 11 天完成 Bun Zig 到 Rust 的迁移,展示了在复杂工程任务中的潜力(Claude Code 推出 Dynamic Workflows:agent 自己当项目经理,Bun Zig→Rust 迁移 11 天完成)。此外,网页版新增 5 级思考深度选择,允许用户灵活平衡速度与输出质量(Claude 4.8 网页版新增5级思考深度选择)。
当前焦点集中在 Opus 4.8 是否为“小幅升级”還是实质性进步。部分评论认为其改进虽显著但未达突破性(Claude Opus 4.8 发布:诚实改进,小幅升级),而官方和多位评测者则强调在编码和 Agent 任务中的可用性飞跃。未来值得观察的点:新模型的自我纠错机制是否能在长流程任务中持续保持可靠性,以及 Dynamic Workflows 能否推动 AI 自主开发成为主流工作流。