DeepSWE 新基准发布：GPT-5.5 领先，小米模型表现亮眼

精选理由

这个基准测试解决了现有 coding benchmark 数据污染问题，做 AI 编程模型评估的团队可以直接参考排行榜，小米模型的表现值得一试。

AI 摘要

DeepSWE 是一个全新的 coding benchmark，所有任务均为原创、从零编写，避免了模型预训练数据记忆污染。任务涵盖多种编程语言，复杂度接近真实世界，参考解决方案平均需修改 668 行代码。排行榜显示 GPT-5.5 xhigh 通过率最高，GPT-5.4 xhigh 第二，其他模型通过率较低。小米的模型表现意外不错，值得关注。

AI 翻译 · 中文

Viking昨天又有一个新的 coding benchmark DeepSWE： deepswe.datacurve.ai/blog 创新是无污染的任务，就是所有任务全新原创，从零编写，未基于现有 PR/Commit，不会被模型预训练数据记住。还有多样性（各种语言都有）以及真实世界复杂度，参考解决方案平均需要修改 668 行代码。最后排行是如图所示： gpt-5.5 xhigh 第一，gpt-5.4 xhigh 第二，这个百分比是通过率，看来任务…

查看原推