10:50arXiv cs.AI@Tobias Holtdirk, Pietro Marcolongo, Anna Steinberg Schulten, Felix Henninger, Stefan Rose, Sarah Ball, Bolei Ma, Frauke Kreuter, Markus Weinmann, Stefan Feuerriegel社会科学和行为科学中的可重复性评估通常依赖独立研究人员重新分析原始数据,成本高且难以规模化。本研究使用 76 篇已发表研究,让 LLM 自动生成分析并与原始结果及人工再分析对比。结果显示,LLM 在 41% 的研究中恢复了原始效应量(Cohen's d 容忍度 ±0.05),而人工再分析仅为 34%;在定性结论一致性上,LLM 达到 96%,人工为 74%。这表明 LLM 可作为可扩展的自动化可重复性评估工具,为系统审计实证结果奠定基础。论文LLM可重复性社会科学自动化评估实证研究推荐理由:社会科学研究者终于有了低成本的重复性验证工具——LLM 比人工更高效且更一致,做元分析或期刊审稿的团队可以直接用这套方法。原文
10:27arXiv cs.AI@Lezhi Tan, Tijana Zrnic该论文提出了一种名为“任务可交换性”的统计条件,允许研究人员在合成数据存在偏差和噪声的情况下,仍能进行具有可证明有效性的推断。核心思想是:如果当前研究任务与某些已有真实数据的“历史任务”在数学上可交换,那么就可以利用合成数据来扩展研究,同时保证统计结论的可靠性。作者在公众舆论调查(使用“硅样本”)和AI评估(使用自动评分器)两个场景中验证了该框架。这项工作为社会科学、AI评测等领域安全使用合成数据提供了理论基础。论文合成数据统计推断任务可交换性AI评估社会科学推荐理由:合成数据在科研中越来越常见,但偏差问题一直让人头疼。这篇论文给出了一个可操作的统计框架,让做社会科学调查或AI评估的研究者可以放心地用合成数据做推断,值得关注。原文
19:12arXiv: DeepSeek@Jinyuan Wang, Ningyuan Deng, Yi Yang精选大型语言模型(LLM)越来越多地被用于社会科学研究,将非结构化文本转换为可进入实证设计的变量。但研究发现,LLM的置信度与真实正确率严重不匹配,导致基于置信度过滤会扭曲下游回归估计。研究对GPT-5-mini、DeepSeek-V3.2等14个社会科学构念进行审计,发现所有模型都存在校准偏差。作为解决方案,提出软标签蒸馏管道,将LLM得分和置信度转化为软目标分布,训练小型判别分类器,平均降低ECE 43.2%和Brier 34.0%。研究呼吁将校准视为测量有效性的组成部分,而非可选的后期处理。论文LLM社会科学校准置信度软标签蒸馏推荐理由:做社会科学量化分析的团队终于有了校准LLM输出的实操方案——软标签蒸馏能显著降低置信度偏差,建议做文本编码和实证研究的点开看看具体方法。原文