数据集·general

数据集

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
22
§ 01综述

数据集领域近期呈现两大趋势:一是基础设施的成熟,二是面向特定任务的规模化数据集持续涌现。

Hugging Face 正在确立为私有/公开模型和数据集的核心存储平台,其 CEO Clement Delangue 强调平台已成为“最佳存储平台”,并展示了 68TB 数据集克隆到私有存储仅需不到 1 分钟的能力(Hugging Face 成为私有/公开模型和数据集的最佳存储平台Hugging Face 克隆 68TB 数据集到私有存储,仅需不到 1 分钟)。同时,开源数据集在规模和专业化上突飞猛进:DeepSeek 发布了最大开源 Verilog 数据集 OpenRTLSet(131K 样本)(OpenRTLSet:最大开源Verilog数据集,131K样本助力硬件设计);智元机器人开源了聚焦物理交互的具身数据集 AGIBOT WORLD 2026(智元开源行业首个聚焦物理交互的具身数据集 AGIBOT WORLD 2026);此外还有 28 万亿像素的开放许可图像数据集 GPIC(GPIC:28万亿像素的开放许可图像数据集,用于视觉生成),以及面向时间动态预测的表格问答数据集 ODTQA-FoRe(ODTQA-FoRe:面向未来数据预测的表格问答数据集)。

工具链方面,出现了简化数据制备的解决方案:Bigset 可一句话生成结构化数据集(Bigset:开源工具,一句话生成结构化数据集),AgentTrove 支持流式处理 1.7M 智能体轨迹并构建 SFT 数据集(AgentTrove 教程:用 Python 流式处理 1.7M 智能体轨迹并构建 SFT 数据集)。AI 安全研究所也开源了相关评估工具和数据集(AI安全研究所开源评估工具和数据集)。

当前关注点在于:如何平衡数据集规模与质量,以及私有化与开源之间的张力。未来需观察:更大规模、多模态数据集是否会进一步推动基础模型能力的提升,同时数据治理和版权问题如何被解决。

§ 02相关报道10 条在档
  1. 01
    Hugging Face 成为私有/公开模型和数据集的最佳存储平台
    Clement Delangue
  2. 02
    Clement Delangue 提议训练开源 AI 建筑模型
    Clement Delangue
  3. 03
    OpenRTLSet:最大开源Verilog数据集,131K样本助力硬件设计
    arXiv: DeepSeek
  4. 04
    Bigset:开源工具,一句话生成结构化数据集
    Ate-a-Pi
  5. 05
    智元开源行业首个聚焦物理交互的具身数据集 AGIBOT WORLD 2026
    IT之家
  6. 06
    ODTQA-FoRe:面向未来数据预测的表格问答数据集
    arXiv cs.LG
  7. 07
    Hugging Face 克隆 68TB 数据集到私有存储,仅需不到 1 分钟
    Clement Delangue
  8. 08
    AI安全研究所开源评估工具和数据集
    Clement Delangue
  9. 09
    AgentTrove 教程:用 Python 流式处理 1.7M 智能体轨迹并构建 SFT 数据集
    marktechpost
  10. 10
    GPIC:28万亿像素的开放许可图像数据集,用于视觉生成
    arXiv cs.AI
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/%E6%95%B0%E6%8D%AE%E9%9B%86