10:07arXiv: DeepSeek@Tianxiang Xu, Xiaoyan Zhu, Xin Lai, Xin Lian, Hangyu Cheng, Jiayin Wang精选现有软件缺陷检测研究缺乏针对生物信息学软件的专用数据集,导致模型在该领域表现受限。研究者推出了BioDefect,这是首个专为生物信息学软件缺陷检测设计的数据集,包含完整源代码仓库,保留了缺陷代码的真实上下文信息。该数据集解决了标签不一致和数据泄露问题,确保高质量和实验可靠性。在包括DeepSeek-R1在内的9个语言模型上的评估显示,BioDefect相比现有数据集平均F1分数提升29.61%至38.04%。这项工作填补了生物信息学软件缺陷检测的研究空白,为提升该领域软件质量保障提供了新方向。论文缺陷检测生物信息学数据集DeepSeek-R1软件质量推荐理由:做生物信息学软件质量保障的团队终于有了专用数据集——BioDefect 比通用数据集 F1 提升近 40%,做缺陷检测研究的可以直接用它来训练和评估模型。原文