№数据集·general

数据集

别名

首次出现: 2026-05-22
最近出现: 2026-06-12
累计提及: 22

§ 01综述

数据集领域近期呈现两大趋势：一是基础设施的成熟，二是面向特定任务的规模化数据集持续涌现。

Hugging Face 正在确立为私有/公开模型和数据集的核心存储平台，其 CEO Clement Delangue 强调平台已成为“最佳存储平台”，并展示了 68TB 数据集克隆到私有存储仅需不到 1 分钟的能力（Hugging Face 成为私有/公开模型和数据集的最佳存储平台；Hugging Face 克隆 68TB 数据集到私有存储，仅需不到 1 分钟）。同时，开源数据集在规模和专业化上突飞猛进：DeepSeek 发布了最大开源 Verilog 数据集 OpenRTLSet（131K 样本）（OpenRTLSet：最大开源Verilog数据集，131K样本助力硬件设计）；智元机器人开源了聚焦物理交互的具身数据集 AGIBOT WORLD 2026（智元开源行业首个聚焦物理交互的具身数据集 AGIBOT WORLD 2026）；此外还有 28 万亿像素的开放许可图像数据集 GPIC（GPIC：28万亿像素的开放许可图像数据集，用于视觉生成），以及面向时间动态预测的表格问答数据集 ODTQA-FoRe（ODTQA-FoRe：面向未来数据预测的表格问答数据集）。

工具链方面，出现了简化数据制备的解决方案：Bigset 可一句话生成结构化数据集（Bigset：开源工具，一句话生成结构化数据集），AgentTrove 支持流式处理 1.7M 智能体轨迹并构建 SFT 数据集（AgentTrove 教程：用 Python 流式处理 1.7M 智能体轨迹并构建 SFT 数据集）。AI 安全研究所也开源了相关评估工具和数据集（AI安全研究所开源评估工具和数据集）。

当前关注点在于：如何平衡数据集规模与质量，以及私有化与开源之间的张力。未来需观察：更大规模、多模态数据集是否会进一步推动基础模型能力的提升，同时数据治理和版权问题如何被解决。

§ 02相关报道10 条在档

§ 03邻近话题