精选理由
这篇论文发现LLM写的概率统计程序常有隐藏错误,单元测试根本抓不到,但用贝叶斯校准检测准确率高达97%,修复效果也远超传统方法。
该研究针对LLM编写的概率程序(NumPyro、Stan、Pyro),采用贝叶斯工作流(后验预测检查、模拟校准、采样器诊断R-hat/ESS)作为验证器。在14种误指定类型、10个模型族的200个实例上,校准方法检测AUC达0.97(2%假阳性率下召回率88%),而单元测试召回率为0%。修复方面,使用校准反馈的LLM修复循环使GPT-5.1通过率从33%升至92%,Claude从75%升至100%,单元测试反馈甚至比无反馈更差。对LLM从头编写的程序,15%-47%存在统计误指定且单元测试全部漏检,校准引导修复显著优于LLM-as-judge等方法。
AI 翻译 · 中文
该研究针对LLM编写的概率程序(NumPyro、Stan、Pyro),采用贝叶斯工作流(后验预测检查、模拟校准、采样器诊断R-hat/ESS)作为验证器。在14种误指定类型、10个模型族的200个实例上,校准方法检测AUC达0.97(2%假阳性率下召回率88%),而单元测试召回率为0%。修复方面,使用校准反馈的LLM修复循环使GPT-5.1通过率从33%升至92%,Claude从75%升至100%,单元测试反馈甚至比无反馈更差。对LLM从头编写的程序,15%-47%存在统计误指定且单元测试全部漏检,校准引导修复显著优于LLM-as-judge等方法。
Language models increasingly write probabilistic programs (in NumPyro, Stan, or Pyro), but a program that compiles, runs, and passes every unit test can still be \emph{statistically} wrong -- a Gaussian likelihood for he…