12:21arXiv cs.LG@Matt L. Wiemann, Lindsay M. Smith, Peter Melchior, Siddharth Mishra-Sharma, Andrew Gordon Wilson, Pavel Izmailov, Carolina Cuesta-Lázaro精选72°研究人员推出了DiscoverPhysics基准,通过让LLM代理在22个物理规则偏离现实的模拟世界中自主发现运动定律,来评估其科学推理能力。每个世界由N体模拟器按需生成,代理需设计多轮实验、观察原始轨迹数据,并提交自然语言解释和Python实现。测试发现,最强模型仅能通过一半世界,尤其在需要发现隐藏结构时失败;开源模型在实验设计和结论提取上显著落后于商业模型。该基准揭示了预测准确性与解释质量之间的差距,强调假设修正和实验设计对概念理解的重要性。论文科学推理LLM评估物理模拟实验设计基准测试推荐理由:这个基准直击LLM科学推理的软肋——从数据中归纳规律而非回忆知识,做AI评估或科学模拟的团队值得关注,它暴露了当前模型在长程推理和实验设计上的真实短板。原文
12:21arXiv cs.LG@Jinwoo Go, Xiaoning Qian, Byung-Jun Yoon精选传统贝叶斯最优实验设计(BOED)以最大化参数信息增益为目标,但在决策关键场景中,减少参数不确定性并不总能改善下游决策。研究者提出GoBOED框架,直接针对指定决策目标优化实验设计,结合摊销变分后验代理与可微凸决策层,实现梯度驱动的设计优化。理论证明GoBOED梯度对决策无关参数方向不敏感,从而在更广泛的实验设计空间内达到同等决策质量。在源定位、疫情管理和药代动力学控制等任务中,GoBOED找到的设计更贴合下游决策目标,且近优设计窗口远宽于传统方法。论文贝叶斯优化实验设计决策优化GoBOED机器学习推荐理由:做实验设计或决策优化的研究者终于有了一个直接对齐目标的方法——GoBOED 让实验设计不再浪费在无关参数上,做贝叶斯优化或主动学习的团队值得关注。原文
11:13arXiv cs.AI@Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky精选这篇论文研究了在模拟器与真实实验之间如何权衡的问题。模拟器成本低但存在校准偏差,真实实验无偏但成本高。作者提出了一个扩展的模拟引理,将模拟器的价值误差分解为可识别的校准-部署偏移和不可减少的参数残差。他们还分析了模拟器最优策略与真实最优策略之间的价值差距,分为局部和可达性两部分。最后,提出了Fisher-SEP算法,通过最小化目标策略价值的后验预测方差来指导实验设计,并在自动售货机供应链和HIV移动测试两个案例中验证了其有效性。论文模拟到真实迁移强化学习实验设计Fisher-SEP价值差距推荐理由:这篇论文为做强化学习或机器人部署的团队提供了一个严谨的框架,帮你判断什么时候该相信模拟器、什么时候该做真实实验。做仿真到真实迁移的开发者可以直接参考其Fisher-SEP算法来优化实验预算。原文