数据集领域近期呈现两大趋势:一是基础设施的成熟,二是面向特定任务的规模化数据集持续涌现。
Hugging Face 正在确立为私有/公开模型和数据集的核心存储平台,其 CEO Clement Delangue 强调平台已成为“最佳存储平台”,并展示了 68TB 数据集克隆到私有存储仅需不到 1 分钟的能力(Hugging Face 成为私有/公开模型和数据集的最佳存储平台;Hugging Face 克隆 68TB 数据集到私有存储,仅需不到 1 分钟)。同时,开源数据集在规模和专业化上突飞猛进:DeepSeek 发布了最大开源 Verilog 数据集 OpenRTLSet(131K 样本)(OpenRTLSet:最大开源Verilog数据集,131K样本助力硬件设计);智元机器人开源了聚焦物理交互的具身数据集 AGIBOT WORLD 2026(智元开源行业首个聚焦物理交互的具身数据集 AGIBOT WORLD 2026);此外还有 28 万亿像素的开放许可图像数据集 GPIC(GPIC:28万亿像素的开放许可图像数据集,用于视觉生成),以及面向时间动态预测的表格问答数据集 ODTQA-FoRe(ODTQA-FoRe:面向未来数据预测的表格问答数据集)。
工具链方面,出现了简化数据制备的解决方案:Bigset 可一句话生成结构化数据集(Bigset:开源工具,一句话生成结构化数据集),AgentTrove 支持流式处理 1.7M 智能体轨迹并构建 SFT 数据集(AgentTrove 教程:用 Python 流式处理 1.7M 智能体轨迹并构建 SFT 数据集)。AI 安全研究所也开源了相关评估工具和数据集(AI安全研究所开源评估工具和数据集)。
当前关注点在于:如何平衡数据集规模与质量,以及私有化与开源之间的张力。未来需观察:更大规模、多模态数据集是否会进一步推动基础模型能力的提升,同时数据治理和版权问题如何被解决。