校准而非编译：检测和修复语言模型编写的误指定概率程序

精选理由

这篇论文发现LLM写的概率统计程序常有隐藏错误，单元测试根本抓不到，但用贝叶斯校准检测准确率高达97%，修复效果也远超传统方法。

AI 摘要

该研究针对LLM编写的概率程序（NumPyro、Stan、Pyro），采用贝叶斯工作流（后验预测检查、模拟校准、采样器诊断R-hat/ESS）作为验证器。在14种误指定类型、10个模型族的200个实例上，校准方法检测AUC达0.97（2%假阳性率下召回率88%），而单元测试召回率为0%。修复方面，使用校准反馈的LLM修复循环使GPT-5.1通过率从33%升至92%，Claude从75%升至100%，单元测试反馈甚至比无反馈更差。对LLM从头编写的程序，15%-47%存在统计误指定且单元测试全部漏检，校准引导修复显著优于LLM-as-judge等方法。

AI 翻译 · 中文

arXiv cs.LGLanguage models increasingly write probabilistic programs (in NumPyro, Stan, or Pyro), but a program that compiles, runs, and passes every unit test can still be \emph{statistically} wrong -- a Gaussian likelihood for he…

阅读原文