HumanEval

§ 01综述

HumanEval是一个用于评估AI模型代码生成能力的标准基准测试，由OpenAI提出，包含164个手写编程问题，用于衡量模型从文档字符串生成正确函数的能力。近年来，HumanEval已成为衡量编码语言模型性能的核心指标之一，几乎所有主流代码生成模型都会报告在其上的通过率。

HumanEval 近期进展

免费AI编码模型DeepSeek-Coder-V2登顶全球排行榜：2026年7月，DeepSeek-Coder-V2在HumanEval等基准上取得最高分，超越当时所有公开模型，展示了开源模型在代码生成领域的竞争力。原文标题

多轮LLM编程对话中的回归累积问题研究：2026年7月arXiv论文指出，在HumanEval的多轮扩展测试中，模型在连续修改代码时可能出现性能退化，表现为先前正确的解决方案被后续修改破坏，揭示了当前模型在迭代编程中的局限性。原文标题

伪造而非暴露：对冻结小代码模型中自我修复反馈的内部预先注册安慰剂对照分解：2026年6月arXiv研究分析了小模型在HumanEval上的自我修复行为，发现模型表面上的错误修复可能源于预训练数据的统计规律而非真正理解，对评估方法提出挑战。原文标题

当前焦点与观察点

当前围绕HumanEval的讨论集中在三个方向：一是开源模型如DeepSeek-Coder-V2持续缩小与闭源模型差距；二是基准本身是否足够反映真实编程能力，多轮交互和修复任务暴露了简单通过率的不足；三是评估方法需更严谨，区分模型是真正理解还是统计模式匹配。此外，新模型如Claude 3.5 Sonnet（2026年7月发布）虽未直接披露HumanEval分数，但业界普遍关注其代码生成表现。总体看，HumanEval仍是关键比测平台，但学界已开始探讨更全面的评估框架。

§ 02相关报道10 条在档

§ 03邻近话题