AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:数据采集×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
01:06
01:06Y Combinator@ycombinator
Hub 是一个通过全球贡献者网络采集真实世界数据的新平台。人类劳动力占全球GDP的一半,但绝大部分从未被记录。Hub 为前沿AI实验室和机器人公司开放访问这些难以获取的数据。该平台由 Y Combinator 支持,创始人 @xarmin 和 @tim404x 今日正式发布。
AI产品Hub训练数据数据采集AI实验室机器人

推荐理由:Hub刚上线,它用全球贡献者网络帮你采集人类真实劳动力数据,解决AI训练数据稀缺问题。
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
04:07
04:07Firecrawl@firecrawl_dev
Firecrawl 发布了 Prometheus,一个实验性的 Forward Deployed Agent,专门用于网页数据采集。用户只需描述所需数据,Prometheus 就能自动编写 Firecrawl 代码来收集数据。支持用户自行运行或由 Firecrawl 托管并自动维护数据更新。本周内可免费在 Claude Fable 5 上试用。
AI产品数据采集FirecrawlPrometheusForward Deployed AgentClaude Fable 5

推荐理由:做数据采集的开发者终于有了一个能自动写代码的 Agent——描述需求就能生成采集脚本,省去手动编写和调试的麻烦,建议试试看。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月10日
02:42
02:42Firecrawl@firecrawl_dev
Firecrawl 宣布押注下一个 10 亿用户将是 AI 智能体,并正式推出 Agent 注册功能。开发者可以让自己的智能体(如 Codex、Claude Code、Grok Build)直接添加 Firecrawl,即时获取 API 密钥,并在数秒内抓取网页数据。该功能由 WorkOS 的 auth.md 提供底层认证支持,旨在让智能体能够像人类用户一样便捷地使用网络数据服务。此举标志着 Firecrawl 从面向人类开发者转向面向 AI 智能体,反映了行业对智能体生态的重视。
AI产品Firecrawl智能体API数据采集WorkOS

推荐理由:Firecrawl 让智能体直接注册并调用 API,做自动化数据采集的开发者可以省去手动配置的麻烦,建议用 Codex 或 Claude Code 的团队试试。
原文
6月3日
09:18
09:18shao__meng@shao__meng
BigSet 是一个开源工具,用户只需用自然语言描述需求,即可从实时网页中生成结构化数据集,并支持定期刷新。一位研发团队负责人分享,他用 BigSet 快速整理出了 B2B SaaS 产品的免费版信息、定价链接等,替代了逐个官网查询的繁琐流程。该工具解决了企业选型时信息收集效率低下的痛点,尤其适合需要持续维护工具清单的团队。项目已在 GitHub 开源,用户可免费使用。
AI产品BigSet开源/仓库企业工具数据采集SaaS选型

推荐理由:BigSet 把「找企业工具」这种重复劳动变成一句话的事,做技术选型或采购调研的团队可以直接省下大量时间,建议试试。
原文
精选全部日报登录