05:36Gary Marcus@GaryMarcusGary Marcus 转发了一项新研究,该研究提出了一个名为 SciConBench 的基准测试,包含 9.11k 个来自 Cochrane 系统评价的科学问题。测试发现,前沿 AI 智能体无法有效综合科学结论,这挑战了 AI 作为科学家的过度宣称。该研究由 Manoel Ribeiro 等人完成,结果对 AI 在科学领域的可靠性提出了质疑。论文AI 科学家SciConBench基准测试科学综合Gary Marcus推荐理由:这项研究直接戳破了 AI 作为科学家的泡沫,做科研或依赖 AI 进行文献综述的团队值得一看,避免被过度宣传误导。原文
00:55rohanpaul_ai@rohanpaul_ai精选MIT 新论文提出一种自修正发现系统,旨在让 AI 科学家在科学探索中不仅搜索现有方案,还能识别当前思维框架的局限性并主动引入新概念。现有 AI 科学系统大多在固定设置内搜索,而真实科学需要新变量、工具或假设。该框架通过将数据、模型、失败等所有产出标记为带类型的工件,区分检索、搜索和发现三种操作,其中发现意味着改变系统本身的表达方式。论文试图形式化 AI 系统长期回避的问题:在语言内找到答案与获得改变语言的权利之间的区别。论文AI 科学家科学发现自修正系统MIT论文推荐理由:这篇论文戳中了当前 AI 科学系统的核心瓶颈——只会搜索不会创新,做 AI 科研或科学自动化的团队值得关注,它给出了一个严谨的形式化框架来定义真正的发现。原文