LLM 自动化社会科学可重复性评估,效果优于人工

Automated reproducibility assessments in the social and behavioral sciences using large language models

精选理由

社会科学研究者终于有了低成本的重复性验证工具——LLM 比人工更高效且更一致,做元分析或期刊审稿的团队可以直接用这套方法。

AI 摘要

社会科学和行为科学中的可重复性评估通常依赖独立研究人员重新分析原始数据,成本高且难以规模化。本研究使用 76 篇已发表研究,让 LLM 自动生成分析并与原始结果及人工再分析对比。结果显示,LLM 在 41% 的研究中恢复了原始效应量(Cohen's d 容忍度 ±0.05),而人工再分析仅为 34%;在定性结论一致性上,LLM 达到 96%,人工为 74%。这表明 LLM 可作为可扩展的自动化可重复性评估工具,为系统审计实证结果奠定基础。

AI 翻译 · 中文

社会科学和行为科学中的可重复性评估通常依赖独立研究人员重新分析原始数据,成本高且难以规模化。本研究使用 76 篇已发表研究,让 LLM 自动生成分析并与原始结果及人工再分析对比。结果显示,LLM 在 41% 的研究中恢复了原始效应量(Cohen's d 容忍度 ±0.05),而人工再分析仅为 34%;在定性结论一致性上,LLM 达到 96%,人工为 74%。这表明 LLM 可作为可扩展的自动化可重复性评估工具,为系统审计实证结果奠定基础。

arXiv cs.AIReproducibility in the social and behavioral sciences is typically evaluated by independent researchers who reanalyze the original data to assess whether the published findings can be recovered. However, such approaches