物理学家监督AI开发科学软件：Claude Code 12天构建可微扰动理论模块

精选理由

这篇案例研究揭示了AI编码代理在科学软件中的关键盲点——无法区分预测充分性与解释正确性，做科学计算或AI辅助研究的开发者看完会重新审视自己的测试策略。

AI 摘要

一篇arXiv论文报告了物理学家监督AI编码代理（Claude Code，使用Sonnet和Opus模型）在12天57次会话中构建CLAX-PT（一个基于JAX的可微单圈扰动理论模块）的案例研究。研究者记录了15次监督干预事件，其中代理自主解决了10次，2次借助物理学家领域知识，3次未能解决。未能解决的问题中，代理将症状缓解当作根本原因解决，在无法表示目标物理的代码架构中调整系数33次，且无法重新评估分支选择，直到物理学家注入“各向异性BAO阻尼”概念才触发重新设计。代理还引入了一个通过所有测试但无理论意义的校准修正，在不同宇宙学参数下预测错误值。研究强调，监督设计（如多样化参数测试、共享变更日志、禁止非物理数值补丁）比模型能力更能决定输出可信度。

AI 翻译 · 中文

arXiv cs.AIAre AI agents tools, co-authors, or researchers? We present a quantified case study ($N=1$): a physicist supervising an AI coding agent (Claude Code, Sonnet and Opus models) over 12 work days and 57 sessions to build CLA…

阅读原文