E3：自动化论文评审的Issue级回测系统

精选理由

E3解决了论文评审中遗漏关键技术问题的痛点，做学术评审或论文质量控制的团队可以直接用这套开源工具提升效率，建议点开看看具体实现。

AI 摘要

E3是一个自动化的论文评审助手，旨在帮助审稿人和工程团队识别论文中的技术问题。它能够报告问题的性质、位置、对贡献的影响以及解决所需的证据，涵盖未支持的声明、缺失的消融实验、弱基线、隐藏假设、有效性威胁和数据泄露风险。为了无污染地评估E3，研究采用了issue级回测协议：只使用训练截止日期后的论文，并由一个观察匿名评审的元法官标记每个问题来源对为“捕获”、“部分”或“遗漏”。在100篇ICLR 2026论文和4598个问题行的测试中，E3在所有聚合指标上实现了最高召回率，部分包含召回率达90.2%，比GPT高15.5个百分点，比Claude高17.1个百分点，比人类评审高29.2个百分点。E3还恢复了人类评审提出的89.6%的问题，并额外发现了1635个被人类遗漏的问题。

AI 翻译 · 中文

arXiv: OpenAIWe present E3, an automated review assistant that augments reviewers and engineering teams by identifying decision-relevant technical concerns in research papers. For each concern, E3 reports its nature, its location, it…

阅读原文