精选理由
这项研究直接戳破了 AI 作为科学家的泡沫,做科研或依赖 AI 进行文献综述的团队值得一看,避免被过度宣传误导。
Gary Marcus 转发了一项新研究,该研究提出了一个名为 SciConBench 的基准测试,包含 9.11k 个来自 Cochrane 系统评价的科学问题。测试发现,前沿 AI 智能体无法有效综合科学结论,这挑战了 AI 作为科学家的过度宣称。该研究由 Manoel Ribeiro 等人完成,结果对 AI 在科学领域的可靠性提出了质疑。
AI 翻译 · 中文
Gary Marcus 转发了一项新研究,该研究提出了一个名为 SciConBench 的基准测试,包含 9.11k 个来自 Cochrane 系统评价的科学问题。测试发现,前沿 AI 智能体无法有效综合科学结论,这挑战了 AI 作为科学家的过度宣称。该研究由 Manoel Ribeiro 等人完成,结果对 AI 在科学领域的可靠性提出了质疑。
🚨Devastating to a lot of overclaims about AI as scientist. 🚨 Manoel @manoelribeiro New preprint! We introduce a new benchmark, SciConBench, with 9.11k scientific questions derived from Cochrane Systematic Reviews. We f…