精选理由
这个基准测试解决了现有 coding benchmark 数据污染问题,做 AI 编程模型评估的团队可以直接参考排行榜,小米模型的表现值得一试。
DeepSWE 是一个全新的 coding benchmark,所有任务均为原创、从零编写,避免了模型预训练数据记忆污染。任务涵盖多种编程语言,复杂度接近真实世界,参考解决方案平均需修改 668 行代码。排行榜显示 GPT-5.5 xhigh 通过率最高,GPT-5.4 xhigh 第二,其他模型通过率较低。小米的模型表现意外不错,值得关注。
AI 翻译 · 中文
DeepSWE 是一个全新的 coding benchmark,所有任务均为原创、从零编写,避免了模型预训练数据记忆污染。任务涵盖多种编程语言,复杂度接近真实世界,参考解决方案平均需修改 668 行代码。排行榜显示 GPT-5.5 xhigh 通过率最高,GPT-5.4 xhigh 第二,其他模型通过率较低。小米的模型表现意外不错,值得关注。
昨天又有一个新的 coding benchmark DeepSWE: deepswe.datacurve.ai/blog 创新是无污染的任务,就是所有任务全新原创,从零编写,未基于现有 PR/Commit,不会被模型预训练数据记住。还有多样性(各种语言都有)以及真实世界复杂度,参考解决方案平均需要修改 668 行代码。 最后排行是如图所示: gpt-5.5 xhigh 第一,gpt-5.4 xhigh 第二,这个百分比是通过率,看来任务…