arXiv: DeepSeek@Weilin He, Arindam Sharma, Cristina David65该研究针对LLM代码生成缺乏正确性保证的问题,提出了一种基于语义距离的不确定性估计方法。与传统样本估计仅度量输出是否一致不同,新方法衡量候选程序执行行为的差异程度。在LiveCodeBench、MBPP等基准测试上,该方法在Python、Java、C++语言上均优于现有基线,且无需访问模型内部或调用LLM作为裁判,运行时间减少48%-79%。研究首次引入分类法厘清不确定性估计的设计维度,填补了语义感知估计这一空白。论文代码生成不确定性估计语义距离LLM可靠性编程助手推荐理由:该工作为LLM代码生成提供了更实用的不确定性估计方案,在效率与效果上均取得显著提升,对提升代码生成系统的可靠性和安全性具有实践指导意义。