05:36Gary Marcus@GaryMarcusGary Marcus 转发了一项新研究,该研究提出了一个名为 SciConBench 的基准测试,包含 9.11k 个来自 Cochrane 系统评价的科学问题。测试发现,前沿 AI 智能体无法有效综合科学结论,这挑战了 AI 作为科学家的过度宣称。该研究由 Manoel Ribeiro 等人完成,结果对 AI 在科学领域的可靠性提出了质疑。论文AI 科学家SciConBench基准测试科学综合Gary Marcus推荐理由:这项研究直接戳破了 AI 作为科学家的泡沫,做科研或依赖 AI 进行文献综述的团队值得一看,避免被过度宣传误导。原文