11:59arXiv cs.AI@George Perrett, Javae Elliott, Jennifer Hill, Marc Scott精选一篇新论文指出,当前LLM基准测试存在局限性,常基于训练数据中的内容评估性能,且未充分衡量可靠性和错误严重程度。研究者设计了一个需要编写代码完成数据分析任务的新基准,对比前沿LLM与人类专家的表现。结果显示,人类专家在多项指标上平均表现更好,且性能波动更小。该研究为LLM并非始终达到人类专家水平提供了证据,并强调了在基准评估中测量方差和错误严重程度的重要性。论文LLM基准测试人类专家可靠性代码生成推荐理由:这篇论文戳破了LLM“达到人类专家水平”的常见叙事,做AI评估或依赖LLM做高精度任务的团队值得细读,看完会对基准测试的可靠性有更深思考。原文