AITOP

5月20日

11:35

arXiv cs.LG@Nico Pelleriti, Sree Harsha Nelaturu, Zhanke Zhou, Zongze Li, Max Zimmer, Bo Han, Sebastian Pokutta

精选72

最新研究指出，将 LLM 与进化搜索结合的编码智能体在数学发现和算法设计上表现强劲，但进步可能源于多种机制：新算法结构、调整现有策略、重组模型内部知识或过拟合评估器。为区分这些机制，研究者推出了 EvoTrace 数据集，涵盖四种进化框架、推理与非推理模型及 16 个任务。他们开发了 EvoReplay 方法，通过重放分析高分解背后的局部搜索状态，并标注了九种编辑类型。结果发现，大部分得分提升来自少数编辑类型，且约 30% 的代码行是重复引入的已删除行，表明基准进步可能并非真正的新算法结构。

论文进化算法编码智能体 LLM EvoTrace 基准分析

推荐理由：做 AI 编码智能体或进化算法研究的开发者，这篇论文帮你拆解了 benchmark 分数的真实来源——别再只看最终得分了，EvoTrace 让你看清智能体到底在“进化”什么。