arXiv cs.LG@Nico Pelleriti, Sree Harsha Nelaturu, Zhanke Zhou, Zongze Li, Max Zimmer, Bo Han, Sebastian Pokutta精选72最新研究指出,将 LLM 与进化搜索结合的编码智能体在数学发现和算法设计上表现强劲,但进步可能源于多种机制:新算法结构、调整现有策略、重组模型内部知识或过拟合评估器。为区分这些机制,研究者推出了 EvoTrace 数据集,涵盖四种进化框架、推理与非推理模型及 16 个任务。他们开发了 EvoReplay 方法,通过重放分析高分解背后的局部搜索状态,并标注了九种编辑类型。结果发现,大部分得分提升来自少数编辑类型,且约 30% 的代码行是重复引入的已删除行,表明基准进步可能并非真正的新算法结构。论文进化算法编码智能体LLMEvoTrace基准分析推荐理由:做 AI 编码智能体或进化算法研究的开发者,这篇论文帮你拆解了 benchmark 分数的真实来源——别再只看最终得分了,EvoTrace 让你看清智能体到底在“进化”什么。