Grading the Grader: 评估智能体数据分析系统的自动评分方法

Grading the Grader: Lessons from Evaluating an Agentic Data Analysis System

精选理由

这篇论文用LAMBDA系统在153个任务上测了三种自动评分方法,发现宽松LLM评分召回率97%,严格规则召回率靠关键词提取提高60个百分点。想看AI评分够不够靠谱的可以读。

AI 摘要

论文以LAMBDA多智能体数据分析系统在DSGym的153个数值QRData任务上为例,研究自动评分可靠性。三层人机评分级联(严格正则匹配、LLM宽松评分、代码片段人工检查)中,两个自动评分器在70个假阳性上达到100%精确率。宽松评分器相比人工标签召回率为97%。关键词锚定提取方案将严格评分器召回率比最后数字启发式提高60个百分点,迭代提示机制将评分运行成功率从36%提升至97%,宽松通过率从16%提升至46%。变量类型是任务元数据中最一致影响评分动态的字段。

AI 翻译 · 中文

论文以LAMBDA多智能体数据分析系统在DSGym的153个数值QRData任务上为例,研究自动评分可靠性。三层人机评分级联(严格正则匹配、LLM宽松评分、代码片段人工检查)中,两个自动评分器在70个假阳性上达到100%精确率。宽松评分器相比人工标签召回率为97%。关键词锚定提取方案将严格评分器召回率比最后数字启发式提高60个百分点,迭代提示机制将评分运行成功率从36%提升至97%,宽松通过率从16%提升至46%。变量类型是任务元数据中最一致影响评分动态的字段。

arXiv cs.AIAgentic data analysis systems produce rich outputs, including code, numerical results, and verbal diagnostics. This makes them more challenging to evaluate than single-turn LLM responses. It is therefore necessary to dis