01:06Y Combinator@ycombinatorHub 是一个通过全球贡献者网络采集真实世界数据的新平台。人类劳动力占全球GDP的一半,但绝大部分从未被记录。Hub 为前沿AI实验室和机器人公司开放访问这些难以获取的数据。该平台由 Y Combinator 支持,创始人 @xarmin 和 @tim404x 今日正式发布。AI产品Hub训练数据数据采集AI实验室机器人推荐理由:Hub刚上线,它用全球贡献者网络帮你采集人类真实劳动力数据,解决AI训练数据稀缺问题。原文
04:07Firecrawl@firecrawl_devFirecrawl 发布了 Prometheus,一个实验性的 Forward Deployed Agent,专门用于网页数据采集。用户只需描述所需数据,Prometheus 就能自动编写 Firecrawl 代码来收集数据。支持用户自行运行或由 Firecrawl 托管并自动维护数据更新。本周内可免费在 Claude Fable 5 上试用。AI产品数据采集FirecrawlPrometheusForward Deployed AgentClaude Fable 510 个信源在谈推荐理由:做数据采集的开发者终于有了一个能自动写代码的 Agent——描述需求就能生成采集脚本,省去手动编写和调试的麻烦,建议试试看。原文
11:20IT之家(博客/媒体)京东在 618 期间于京东 MALL 引入多款智能机器人作为实习员工,覆盖迎宾、导购、理货、咨询等核心零售场景。这些机器人包括智元 X2 人形机器人、宇树 Go2 四足机器狗等,基于具身智能技术提升线下消费体验。京东还宣布建成全球最大具身智能数据采集中心,计划发动数十万人参与数据采集,以推动行业技术发展。此举标志着具身智能在零售领域的规模化落地,为线下门店运营模式带来变革。AI产品具身智能机器人京东零售数据采集推荐理由:京东把具身智能从概念拉进了真实零售场景,做线下零售或机器人应用的团队值得关注——这是少有的多机型、多岗位协同的实战案例,可以直接参考其岗位分工和数据采集模式。原文
02:42Firecrawl@firecrawl_devFirecrawl 宣布押注下一个 10 亿用户将是 AI 智能体,并正式推出 Agent 注册功能。开发者可以让自己的智能体(如 Codex、Claude Code、Grok Build)直接添加 Firecrawl,即时获取 API 密钥,并在数秒内抓取网页数据。该功能由 WorkOS 的 auth.md 提供底层认证支持,旨在让智能体能够像人类用户一样便捷地使用网络数据服务。此举标志着 Firecrawl 从面向人类开发者转向面向 AI 智能体,反映了行业对智能体生态的重视。AI产品Firecrawl智能体API数据采集WorkOS推荐理由:Firecrawl 让智能体直接注册并调用 API,做自动化数据采集的开发者可以省去手动配置的麻烦,建议用 Codex 或 Claude Code 的团队试试。原文
09:18shao__meng@shao__mengBigSet 是一个开源工具,用户只需用自然语言描述需求,即可从实时网页中生成结构化数据集,并支持定期刷新。一位研发团队负责人分享,他用 BigSet 快速整理出了 B2B SaaS 产品的免费版信息、定价链接等,替代了逐个官网查询的繁琐流程。该工具解决了企业选型时信息收集效率低下的痛点,尤其适合需要持续维护工具清单的团队。项目已在 GitHub 开源,用户可免费使用。AI产品BigSet开源/仓库企业工具数据采集SaaS选型推荐理由:BigSet 把「找企业工具」这种重复劳动变成一句话的事,做技术选型或采购调研的团队可以直接省下大量时间,建议试试。原文
01:59marktechpost@Asif RazzaqTinyFish 发布了开源多智能体系统 BigSet,用户只需用自然语言描述数据集需求,系统便会自动从实时网络中搜索并返回结构化表格。BigSet 由编排器和并行子智能体组成,能够高效处理复杂的数据收集任务。这一工具大幅降低了数据获取的门槛,对需要快速构建定制化数据集的开发者和研究人员意义重大。BigSet 完全开源,可直接部署使用。AI产品多智能体系统开源/仓库数据采集自然语言处理BigSet推荐理由:做数据分析和 AI 训练的人终于不用手动爬数据了——BigSet 用一句话就能生成结构化实时数据集,建议做 NLP 或数据工程的团队直接试试。原文
09:38arXiv cs.AI@Akbar Erkinov本文提出了一种用于地毯制造在线质检的机器视觉系统设计方案,核心目标是实时检测缺陷并系统收集标注数据,以持续训练质检AI模型。方案基于六西格玛DMAIC项目背景,针对织机增加后的产能瓶颈和缺陷率问题,设计了线扫描相机与组合照明子系统,并定义了地毯专用缺陷分类体系。建模策略从无监督异常检测起步,通过人工标注闭环逐步演进到监督检测与分割模型。该方案将数据采集作为一等工程目标,而非事后补充,为工业质检AI落地提供了可部署的完整蓝图。论文工业质检机器视觉无监督异常检测数据采集地毯制造推荐理由:地毯制造质检的痛点——人工目检慢、主观、不稳定——在AI时代有了系统解法,做工业视觉质检的团队可以直接参考这套从数据采集到模型迭代的完整路径。原文
17:35IT之家(博客/媒体)美国初创公司 Shift 在纽约市推出免费公寓清洁服务,专业清洁人员会全程佩戴设备录制第一视角视频。这些视频经匿名化处理后,将被授权用于训练 AI 和家用机器人,帮助它们学习日常家务操作。Shift 强调会模糊处理屏幕、身份证等个人信息,不会公开分享或出售给广告商。该公司计划未来在全球范围内扩展免费上门维修、修理和跑腿等服务,同样以录像为交换条件。AI产品数据采集家用机器人AI训练隐私保护Shift推荐理由:做机器人或 AI 家务训练的团队,终于有了真实世界数据获取的新路径——Shift 用免费服务换清洁录像,解决了数据稀缺和成本高的问题,值得关注其数据集授权模式。原文
20:56IT之家(博客/媒体)76°京东宣布全国首个具身智能数据采集社区在宿迁正式运行,居民通过日常家务即可采集机器人训练数据。采集员佩戴京东自研的JoyEgoCam终端,记录上肢轨迹、力度分布等关键参数,数据经处理后用于训练具身模型。京东计划两年内积累超1000万小时真实场景视频数据,覆盖物流、家庭、农业等五大场景,旨在解决具身智能领域高质量数据供给不足的瓶颈。该社区已试运行,居民参与可获得收入补贴,数据通过合规平台向学术界和开发者开放。行业京东具身智能数据采集机器人训练智能家居推荐理由:京东用真实家务场景解决具身智能数据短缺难题,做机器人训练或AI模型的团队可以直接关注这一低成本数据采集模式,值得点开了解如何参与或复用。原文
21:36IT之家(博客/媒体)Meta 美国员工在办公室分发传单,抗议公司近期在员工电脑上安装鼠标追踪软件,认为这相当于让他们亲手训练取代自己的 AI。传单引用《国家劳工关系法》,鼓励员工签署在线请愿书。此举正值 Meta 计划裁减 10% 员工,内部劳工运动初现。Meta 辩称需要真实用户数据训练智能体,但员工认为这是为 AI 取代人类做准备。英国 Meta 员工也已启动工会化运动。行业Meta员工抗议AI 监控数据采集劳工运动推荐理由:Meta 员工用传单和请愿书对抗 AI 监控,做 AI 产品、关心员工权益的团队值得关注——这可能是科技行业劳工运动的转折点。原文