09:07GitHub Blog@Natalie GuevaraGitHub发布了一个新的repository-level数据集,许可证为CC0-1.0,包含多语言开发者内容,涵盖README、issues和pull requests。该数据集旨在帮助研究人员和开发者训练或改进多语言AI模型。数据集中于2025年4月发布,可直接下载使用,无需额外申请。AI模型GitHub多语言AI开源数据集代码文档推荐理由:GitHub新出的多语言数据集,免费开源,里面各种语言的README和讨论都有,做多语言AI模型训练正好用上。原文