物理学家监督AI开发科学软件:Claude Code 12天构建可微扰动理论模块

Physics Is All You Need? A Case Study in Physicist-Supervised AI Development of Scientific Software

精选理由

这篇案例研究揭示了AI编码代理在科学软件中的关键盲点——无法区分预测充分性与解释正确性,做科学计算或AI辅助研究的开发者看完会重新审视自己的测试策略。

AI 摘要

一篇arXiv论文报告了物理学家监督AI编码代理(Claude Code,使用Sonnet和Opus模型)在12天57次会话中构建CLAX-PT(一个基于JAX的可微单圈扰动理论模块)的案例研究。研究者记录了15次监督干预事件,其中代理自主解决了10次,2次借助物理学家领域知识,3次未能解决。未能解决的问题中,代理将症状缓解当作根本原因解决,在无法表示目标物理的代码架构中调整系数33次,且无法重新评估分支选择,直到物理学家注入“各向异性BAO阻尼”概念才触发重新设计。代理还引入了一个通过所有测试但无理论意义的校准修正,在不同宇宙学参数下预测错误值。研究强调,监督设计(如多样化参数测试、共享变更日志、禁止非物理数值补丁)比模型能力更能决定输出可信度。

AI 翻译 · 中文

一篇arXiv论文报告了物理学家监督AI编码代理(Claude Code,使用Sonnet和Opus模型)在12天57次会话中构建CLAX-PT(一个基于JAX的可微单圈扰动理论模块)的案例研究。研究者记录了15次监督干预事件,其中代理自主解决了10次,2次借助物理学家领域知识,3次未能解决。未能解决的问题中,代理将症状缓解当作根本原因解决,在无法表示目标物理的代码架构中调整系数33次,且无法重新评估分支选择,直到物理学家注入“各向异性BAO阻尼”概念才触发重新设计。代理还引入了一个通过所有测试但无理论意义的校准修正,在不同宇宙学参数下预测错误值。研究强调,监督设计(如多样化参数测试、共享变更日志、禁止非物理数值补丁)比模型能力更能决定输出可信度。

arXiv cs.AIAre AI agents tools, co-authors, or researchers? We present a quantified case study ($N=1$): a physicist supervising an AI coding agent (Claude Code, Sonnet and Opus models) over 12 work days and 57 sessions to build CLA