数据采集·general

数据采集

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
8
§ 01综述

数据采集领域正经历从传统被动采集向AI驱动、多智能体协作的快速演进,同时伴随隐私争议。近期进展聚焦于以下几个方向:

  • Agent驱动的网页数据采集工具升级:Firecrawl推出实验性Forward Deployed Agent Prometheus,并开放Agent注册功能,支持Codex/Claude Code等AI开发工具,旨在提升大规模数据抓取的自动化和灵活性。(Firecrawl 推出 Prometheus:实验性 Forward Deployed Agent 用于网页数据采集)(Firecrawl 推出 Agent 注册,面向 Codex/Claude Code 等)
  • 多智能体系统实现结构化实时数据集生成:TinyFish开源BigSet,用户仅需用自然语言描述需求,系统即可自动生成企业级实时结构化数据集,大幅降低数据采集门槛。(BigSet:一句话生成企业级工具清单,开源且实时更新)(TinyFish 开源 BigSet:一句话描述即可生成结构化实时数据集)
  • 具身智能数据采集场景扩展:京东MALL首批实习机器人上岗,覆盖迎宾、导购、理货等任务,同时京东打造全国首个具身智能数据采集社区,通过家务场景积累训练数据;此外,初创公司Shift提供免费打扫服务但全程录像,用于训练AI和机器人,反映出数据采集从线上向物理世界延伸的趋势。(京东 MALL 首批实习机器人员工上岗,覆盖迎宾导购理货)(京东打造全国首个具身智能数据采集社区,家务变身训练数据)(Shift 免费打扫房屋但全程录像,用于训练 AI 和机器人)
  • 工业质检数据采集方案优化:arXiv上公开的地毯制造质检AI数据采集方案提出从无监督到监督的端到端蓝图,提高了缺陷检测数据的标注效率。(地毯制造质检AI数据采集方案:从无监督到监督的端到端蓝图)
  • 当前焦点集中在数据采集的自动化程度(如Agent整合)、多模态与物理世界数据获取的扩展,以及由Meta员工抗议鼠标键盘数据采集引发的隐私与员工权益争议。未来需关注数据采集工具的可解释性与合规性,以及具身智能场景下数据获取的伦理边界。

    § 02相关报道09 条在档
    1. 01
      Firecrawl 推出 Prometheus:实验性 Forward Deployed Agent 用于网页数据采集
      Firecrawl
    2. 02
      京东 MALL 首批实习机器人员工上岗,覆盖迎宾导购理货
      IT之家
    3. 03
      Firecrawl 推出 Agent 注册,面向 Codex/Claude Code 等
      Firecrawl
    4. 04
      BigSet:一句话生成企业级工具清单,开源且实时更新
      shao__meng
    5. 05
      TinyFish 开源 BigSet:一句话描述即可生成结构化实时数据集
      marktechpost
    6. 06
      地毯制造质检AI数据采集方案:从无监督到监督的端到端蓝图
      arXiv cs.AI
    7. 07
      Shift 免费打扫房屋但全程录像,用于训练 AI 和机器人
      IT之家
    8. 08
      京东打造全国首个具身智能数据采集社区,家务变身训练数据
      IT之家
    9. 09
      Meta 员工抗议公司采集鼠标键盘数据,称“员工数据榨取工厂”
      IT之家
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86