humaneval·general

HumanEval

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
15
§ 01综述

HumanEval 作为代码生成基准测试,近期被多项研究用来评估新方法的有效性。当前趋势表明,研究重点正从单纯提升通过率转向结合推理、熵分析和强化学习等多元手段。

  • 一项研究提出快速自适应语义熵(FASE),通过衡量代码输出的熵值来提升质量评估的准确性,在 HumanEval 上显示出改进(FASE:快速自适应语义熵提升代码质量评估)。
  • MetaAI 的递归自设计方法展示了从零开始逐步构建系统的可复现工程证据,并在 HumanEval 上验证了代码生成能力(MetaAI 递归自设计:从 0 到 1 再到 N 的可复现工程证据)。
  • JetBrains 发布的 Mellum2 12B MoE 模型在 HumanEval 上达到 82.5% 的 Pass@1,表明中等规模模型通过架构优化也能接近领先水平(JetBrains 发布 Mellum2:12B MoE 模型)。
  • 使用 PPO 代理优化提示词的 RL 方法将 Pass@1 提升至 85.5%,显示了强化学习在代码生成提示工程中的潜力(RL优化LLM代码生成提示词:PPO代理提升Pass@1至85.5%)。
  • 结合静态分析奖励与提示扩散的 RL 方法也取得了性能提升,强调了代码语义正确性的重要性(静态分析奖励与提示扩散RL提升代码生成性能)。
  • 当前焦点:HumanEval 仍然是代码生成的核心基准,但单一指标可能不足以反映模型的实际编程能力。未来可关注更复杂的评估体系,如结合多轮修复、项目级任务和低资源语言扩展,这些新方向的融合将推动代码生成技术的进一步发展。

    § 02相关报道07 条在档
    1. 01
      FASE:快速自适应语义熵提升代码质量评估
      arXiv cs.AI
    2. 02
      MetaAI 递归自设计:从 0 到 1 再到 N 的可复现工程证据
      arXiv cs.AI
    3. 03
      JetBrains 发布 Mellum2:12B MoE 模型
      Hugging Face: Blog
    4. 04
      Entropy-Cut MH:用熵识别推理决策点,采样提升推理能力
      arXiv cs.AI
    5. 05
      BrahmicTokenizer-131K:替代o200k_base的印度语言分词器
      arXiv: OpenAI
    6. 06
      RL优化LLM代码生成提示词:PPO代理提升Pass@1至85.5%
      arXiv: DeepSeek
    7. 07
      静态分析奖励与提示扩散RL提升代码生成性能
      arXiv cs.AI
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/HumanEval