arXiv: DeepSeek@Weilin He, Arindam Sharma, Cristina David65该研究针对LLM代码生成缺乏正确性保证的问题,提出了一种基于语义距离的不确定性估计方法。与传统样本估计仅度量输出是否一致不同,新方法衡量候选程序执行行为的差异程度。在LiveCodeBench、MBPP等基准测试上,该方法在Python、Java、C++语言上均优于现有基线,且无需访问模型内部或调用LLM作为裁判,运行时间减少48%-79%。研究首次引入分类法厘清不确定性估计的设计维度,填补了语义感知估计这一空白。论文代码生成不确定性估计语义距离LLM可靠性编程助手推荐理由:该工作为LLM代码生成提供了更实用的不确定性估计方案,在效率与效果上均取得显著提升,对提升代码生成系统的可靠性和安全性具有实践指导意义。
arXiv: DeepSeek@Joanna Szych, Anne Schwerk45该论文提出了一种树状折叠评估方法,用于评估LLM生成代码的正确性、质量和可用性。研究者基于一个复杂的计算机科学项目构建了正确性基准,并结合代码质量验证和开发者结构化审查。他们用该方法评估了GPT-4.1、DeepSeek-V3-0324和Claude Opus 4三个模型,发现开发者审查能揭示代码生产就绪状态等标准基准无法捕获的洞察。这表明仅靠正确性测试不足以全面评估LLM代码生成能力。论文代码生成评估基准GPT-4.1DeepSeek-V3-0324Claude Opus 4推荐理由:该研究为LLM代码生成评估提供了更全面的方法论,强调了开发者反馈的重要性,对模型选择和改进实践具有参考价值。
arXiv cs.AI@Haozhe Zhang, Kaichen Liu, Miaomiao Chen, Lei Li, Shaojie Yang, Cheng Peng, Hanjie Chen65研究者推出BenchCAD,一个统一的基准测试,用于评估多模态大语言模型在工业CAD代码生成上的能力。该基准包含17,900个可执行的CadQuery程序,涵盖106个工业零件系列,如锥齿轮、压缩弹簧和麻花钻。通过视觉问答、图像到代码生成等任务,BenchCAD测试模型在感知、参数抽象和可执行程序合成方面的综合能力。实验显示,当前前沿模型能恢复大致几何形状,但在精确参数和工业设计操作上常失败,如用简单拉伸替代扫掠、放样等关键操作。论文代码生成多模态模型CAD/设计基准测试工业自动化推荐理由:该基准揭示了现有模型在工业级CAD生成上的显著不足,为模型优化和工业自动化提供了明确的评估标准。