ReproRepo:利用GitHub Issue扩展可重复性审计

ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues

精选理由

这篇论文提出了一个可扩展的框架,用GitHub Issues来测试LLM智能体找论文代码的复现问题,比现有手动基准好很多,值得看。

AI 摘要

ReproRepo是一个可扩展的框架,利用GitHub Issues作为监督信号来评估LLM在可重复性审计中的能力。研究基于1149篇近期机器学习论文,测试了四种前沿智能体配置。最佳配置Codex with GPT-5.5能识别约90%论文的至少一个语义相关的真实可重复性问题。分析表明智能体擅长发现表面故障和语义区域,但精确定位仍不足。代码已开源。

AI 翻译 · 中文

ReproRepo是一个可扩展的框架,利用GitHub Issues作为监督信号来评估LLM在可重复性审计中的能力。研究基于1149篇近期机器学习论文,测试了四种前沿智能体配置。最佳配置Codex with GPT-5.5能识别约90%论文的至少一个语义相关的真实可重复性问题。分析表明智能体擅长发现表面故障和语义区域,但精确定位仍不足。代码已开源。

arXiv cs.AIReproducing research results from papers and released code is central to scientific progress. Existing works have introduced benchmarks to evaluate whether LLM agents can assist with reproducibility, but they are difficu