论文精选72°

DiscoverPhysics:测试LLM在非标准物理世界中科学推理能力的基准

DiscoverPhysics: Benchmarking LLMs for Out-of-the-Box Scientific Thinking

精选理由

这个基准直击LLM科学推理的软肋——从数据中归纳规律而非回忆知识,做AI评估或科学模拟的团队值得关注,它暴露了当前模型在长程推理和实验设计上的真实短板。

AI 摘要

研究人员推出了DiscoverPhysics基准,通过让LLM代理在22个物理规则偏离现实的模拟世界中自主发现运动定律,来评估其科学推理能力。每个世界由N体模拟器按需生成,代理需设计多轮实验、观察原始轨迹数据,并提交自然语言解释和Python实现。测试发现,最强模型仅能通过一半世界,尤其在需要发现隐藏结构时失败;开源模型在实验设计和结论提取上显著落后于商业模型。该基准揭示了预测准确性与解释质量之间的差距,强调假设修正和实验设计对概念理解的重要性。

AI 翻译 · 中文

研究人员推出了DiscoverPhysics基准,通过让LLM代理在22个物理规则偏离现实的模拟世界中自主发现运动定律,来评估其科学推理能力。每个世界由N体模拟器按需生成,代理需设计多轮实验、观察原始轨迹数据,并提交自然语言解释和Python实现。测试发现,最强模型仅能通过一半世界,尤其在需要发现隐藏结构时失败;开源模型在实验设计和结论提取上显著落后于商业模型。该基准揭示了预测准确性与解释质量之间的差距,强调假设修正和实验设计对概念理解的重要性。

arXiv cs.LGFrontier LLMs now perform strongly across a wide range of physics evaluations, but it is hard to disentangle genuine reasoning from recall of established science. We introduce DiscoverPhysics, an interactive benchmark th