19:11arXiv: DeepSeek@Joanna Szych, Anne Schwerk该论文提出了一种树状折叠评估方法,用于评估LLM生成代码的正确性、质量和可用性。研究者基于一个复杂的计算机科学项目构建了正确性基准,并结合代码质量验证和开发者结构化审查。他们用该方法评估了GPT-4.1、DeepSeek-V3-0324和Claude Opus 4三个模型,发现开发者审查能揭示代码生产就绪状态等标准基准无法捕获的洞察。这表明仅靠正确性测试不足以全面评估LLM代码生成能力。论文代码生成评估基准GPT-4.1DeepSeek-V3-0324Claude Opus 4推荐理由:该研究为LLM代码生成评估提供了更全面的方法论,强调了开发者反馈的重要性,对模型选择和改进实践具有参考价值。原文
19:11arXiv cs.AI@Haozhe Zhang, Kaichen Liu, Miaomiao Chen, Lei Li, Shaojie Yang, Cheng Peng, Hanjie Chen研究者推出BenchCAD,一个统一的基准测试,用于评估多模态大语言模型在工业CAD代码生成上的能力。该基准包含17,900个可执行的CadQuery程序,涵盖106个工业零件系列,如锥齿轮、压缩弹簧和麻花钻。通过视觉问答、图像到代码生成等任务,BenchCAD测试模型在感知、参数抽象和可执行程序合成方面的综合能力。实验显示,当前前沿模型能恢复大致几何形状,但在精确参数和工业设计操作上常失败,如用简单拉伸替代扫掠、放样等关键操作。论文代码生成多模态模型CAD/设计基准测试工业自动化推荐理由:该基准揭示了现有模型在工业级CAD生成上的显著不足,为模型优化和工业自动化提供了明确的评估标准。原文
22:15François Chollet@fcholletKeras创始人François Chollet在X平台发文指出,智能体编程本质上是一种机器学习形式。他认为生成的代码应被视为黑盒产物,其行为和泛化能力需要通过经验评估来管理,就像对待任何机器学习模型一样。这一观点挑战了将代码自动生成视为传统编程延伸的普遍看法,强调开发者需要关注评估而不是审查代码本身。论文智能体代码生成MCP/工具机器学习评估推荐理由:本文提醒开发者,Agentic coding(智能体编程)的输出应作为黑盒模型进行经验评估,这对当前AI辅助编码的工程实践具有指导意义。原文