12:55arXiv cs.AI@Sara Fish该研究以EC 2025论文中一个关于公共物品稳定菜单的开放问题为测试平台,评估不同AI研究工作流的效果。实验发现:(1)在提示中加入人类直觉能提升LLM的“品味”;(2)多轮交互工作流在鼓励“大胆步骤”时更有效。与一名一年级博士生比较,LLM在解决该问题上的效果略逊一筹。研究尚未公开博士生参与前的原始手稿对比细节。论文EconCSLLM公共物品工作流AI研究推荐理由:这篇论文告诉你,用AI做经济学研究时,喂它人类直觉比纯指令好使,但别指望它比刚入行的博士生强多少。原文
12:53arXiv cs.AI@Kevin L Coakley, Thijs Snelleman, Holger Hoos, Odd Erik Gundersen该研究分析了2014至2024年间五大顶级AI会议发表的56800篇论文,评估其文档实践。结果显示,代码和数据共享比例从11%增至64%,增长了近六倍。基于文档实践推断的可重复性从28%提升至64%。这些改进在可重复性检查清单引入之前就已开始,反映的是开放科学趋势而非形式要求。论文可重复性AI研究开源科学文档实践推荐理由:这篇论文用56800篇数据告诉你,AI研究的可重复性在过去十年大幅提升,代码共享从11%涨到64%,而且不是靠强制清单推动的。原文