DeepSWE 是一个新兴的编程基准测试,旨在评估 AI 模型在真实世界软件工程任务上的表现。它由 Datacurve 发布,包含 113 个任务,覆盖 5 种编程语言,难度较现有基准更高,更贴近实际开发场景。
- 近期主要进展:
- 基准发布与初步结果:DeepSWE 推出后,Claude Opus 4.8 在基准上得分 4.8(高于此前版本 4.7),领先于 Claude Code 约 10 个百分点。同时,GPT-5.5 表现领先,小米的模型也取得亮眼成绩。(DeepSWE 新基准发布:GPT-5.5 领先,小米模型表现亮眼;Datacurve 发布 DeepSWE:更难、更真实的编程基准测试)
- Claude Opus 4.8 登顶:Anthropic 发布的 Claude Opus 4.8 在 DeepSWE 上获得最高评分,被评价为效率与可靠性领先,同时成本更低。该模型的发布也使 Anthropic 估值达到 9650 亿美元。(Claude Opus 4.8 登顶 DeepSWE Bench,效率与可靠性领先;Anthropic 发布 Claude Opus 4.8)
- 模型对比与评价:有分析指出,Opus 4.8 相比前代提升明显,成本更低,但仍落后于 GPT-5.5,后者在 DeepSWE 上保持领先。(DeepSWE 评分:Opus 4.8 强于 4.7,成本更低,但仍落后 GPT5.5)
当前焦点 / 未来观察点:
DeepSWE 正成为衡量 AI 编程能力的重要新基准,其更贴近真实开发任务的设计促使模型厂商针对性优化。未来观察点包括:其他模型(如开源模型)在 DeepSWE 上的表现;该基准对实际软件开发效率的影响;以及随着任务扩展,模型是否能在代码生成、调试、重构等方面持续进步。