GitHub发布多语言AI开源数据集,覆盖README、Issues、Pull Requests

Accelerating researchers and developers building multilingual AI with a new open dataset

精选理由

GitHub新出的多语言数据集,免费开源,里面各种语言的README和讨论都有,做多语言AI模型训练正好用上。

AI 摘要

GitHub发布了一个新的repository-level数据集,许可证为CC0-1.0,包含多语言开发者内容,涵盖README、issues和pull requests。该数据集旨在帮助研究人员和开发者训练或改进多语言AI模型。数据集中于2025年4月发布,可直接下载使用,无需额外申请。

图片来源 · GitHub Blog
AI 翻译 · 中文

GitHub发布了一个新的repository-level数据集,许可证为CC0-1.0,包含多语言开发者内容,涵盖README、issues和pull requests。该数据集旨在帮助研究人员和开发者训练或改进多语言AI模型。数据集中于2025年4月发布,可直接下载使用,无需额外申请。

GitHub BlogA new repository-level dataset, published on GitHub under CC0-1.0, helps researchers and developers discover multilingual developer content across READMEs, issues, and pull requests. The post Accelerating researchers and