SciConBench 揭示前沿 AI 无法科学综合结论

精选理由

这项研究直接戳破了 AI 作为科学家的泡沫，做科研或依赖 AI 进行文献综述的团队值得一看，避免被过度宣传误导。

AI 摘要

Gary Marcus 转发了一项新研究，该研究提出了一个名为 SciConBench 的基准测试，包含 9.11k 个来自 Cochrane 系统评价的科学问题。测试发现，前沿 AI 智能体无法有效综合科学结论，这挑战了 AI 作为科学家的过度宣称。该研究由 Manoel Ribeiro 等人完成，结果对 AI 在科学领域的可靠性提出了质疑。

AI 翻译 · 中文

Gary Marcus🚨Devastating to a lot of overclaims about AI as scientist. 🚨 Manoel @manoelribeiro New preprint! We introduce a new benchmark, SciConBench, with 9.11k scientific questions derived from Cochrane Systematic Reviews. We f…

查看原推