01:03Clement Delangue@ClementDelangueHuggingFace 平台上的公开模型数量即将突破300万个,公开数据集也即将达到100万个。该平台已成为开源AI社区的核心枢纽,模型和数据集数量在过去一年快速翻倍。这一里程碑反映了开源AI生态的持续繁荣。行业HuggingFace开源模型数据集社区里程碑推荐理由:HuggingFace 马上要突破300万模型和100万数据集了,这说明开源AI有多火。看看这个数字,社区力量真强。原文
01:36Clement Delangue@ClementDelangue精选Hugging Face 宣布其存储平台已成为私有和公开模型及数据集的最佳选择,支持中间和最终版本。以 @heyjasperai 为例,他们使用 HF 存储桶存储 Monet 数据集并直接在其上训练模型。这展示了 HF 在 AI 存储和训练工作流中的一体化能力。对于需要管理大型模型和数据集的团队,HF 提供了便捷的存储和训练集成方案。AI产品Hugging Face存储平台数据集模型训练AI 基础设施推荐理由:Hugging Face 将存储与训练无缝集成,管理模型和数据集的团队可以直接在平台上完成从存储到训练的全流程,省去多平台切换的麻烦。原文
03:20Clement Delangue@ClementDelangueHugging Face 联合创始人 Clement Delangue 在 X 上发起讨论,询问是否应该尝试训练一个开源 AI 建筑模型。他指出 Hugging Face 拥有丰富的相关数据集,包括 HF、MLintern、transformers、trl 等。该提议引发了社区关注,获得 36 条评论、6 次转发、150 个赞和 4284 次浏览。这表明开源 AI 在建筑领域的应用潜力正受到关注,可能推动建筑行业智能化发展。行业开源模型建筑行业Hugging Face数据集AI 应用推荐理由:Hugging Face 联合创始人的提议直击开源 AI 在垂直领域的落地机会,建筑行业的开发者或研究者可以关注这个方向,看看能否用现有数据集推动创新。原文
16:05Ate-a-Pi@svpinoBigset 是一个开源工具,用户只需描述所需数据,即可自动生成结构化数据集。它通过编排智能体搜索网络,并派发子智能体并行抓取数据,最终输出可下载的 CSV/JSON 文件。例如,输入“亚马逊上所有徕卡镜头”或“京都徕卡门店及评分”,即可获得整理好的数据。该工具底层调用 TinyFish 的免费搜索与抓取 API,支持定时刷新和自托管。对于需要快速收集结构化信息的开发者、数据科学家或研究者,Bigset 提供了一条低代码、高效率的路径。AI产品开源/仓库数据集智能体数据抓取TinyFish推荐理由:Bigset 解决了手动收集和整理网络数据的高成本问题,适合需要快速获取结构化数据集的开发者、数据科学家或研究者,直接输入自然语言就能拿到结果,值得一试。原文
10:20Clement Delangue@ClementDelangue精选Hugging Face 联合创始人 Clement Delangue 在 X 上分享,他仅用不到 1 分钟就将一个 68TB 的数据集克隆到自己的私有训练存储桶中,而本地磁盘只有 4TB。这得益于 Hugging Face 的基础设施优化和 xet 去重技术。该功能让用户无需下载完整数据集即可直接使用,大幅节省时间和存储空间。对于需要大规模数据集的 AI 训练团队来说,这是一个效率提升的利器。AI产品Hugging Face数据集克隆去重基础设施推荐理由:做大规模 AI 训练的团队终于可以告别下载整个数据集的痛苦——68TB 数据集 1 分钟克隆到私有存储,建议所有需要管理海量数据的开发者点开看看。原文
01:42Clement Delangue@ClementDelangueAI安全研究所(AISecurityInst)在Hugging Face上公开发布了其评估工具、数据集和模型,旨在促进AI安全研究的透明度和可复现性。这一举措允许全球研究人员审查、复现并基于这些资源进行开发,打破了AI安全研究封闭进行的传统。开源这些关键资源有助于加速AI安全领域的进展,并增强公众对AI系统的信任。AI产品AI安全开源/仓库评估工具数据集Hugging Face推荐理由:AI安全研究终于走向开放,做AI安全评估和模型审计的团队可以直接复用这些资源,建议点开看看具体有哪些工具和数据集。原文
22:11Julien Chaumond@julien_cJasper AI 发布了 MONET 数据集,包含 1.05 亿个经过去重和重新标注的图像-文本对,采用 Apache 2.0 开源许可,是目前最大的开放许可文生图数据集之一。该数据集托管在 Hugging Face 上,旨在推动可复现的文生图研究。同时,Jasper 还开源了 Nano T2I 代码库,帮助开发者训练自己的文生图模型。这一发布解决了开源文生图领域缺乏大规模、高质量、可复现数据集的问题。AI产品文生图数据集开源/仓库Hugging FaceJasper推荐理由:做文生图研究的团队终于有了一个大规模、去重、重新标注的开源数据集,可以直接用于训练和复现实验,建议点开看看数据集和代码库。原文
22:53Clement Delangue@ClementDelangueCommonCrawl 公开推荐并使用 Hugging Face Buckets 来管理大型且不断演变的训练数据集。Hugging Face Buckets 是一种存储解决方案,专为处理私有模型或数据集而设计。该工具旨在简化大规模数据管理流程,提升效率。Hugging Face 创始人呼吁用户尝试并反馈意见。AI产品数据集存储CommonCrawlHugging Face训练数据推荐理由:CommonCrawl 的背书说明 Hugging Face Buckets 在大规模数据管理上靠谱,做 NLP 或预训练数据处理的团队可以直接试试,省去自己搭存储的麻烦。原文
07:40mem0@mem0aiMem0 宣布启动 AGENTRUSH,这是一场为期 7 天、仅限 AI 智能体参与的竞赛。智能体需将记忆写入共享项目,并根据有多少其他智能体将其记忆检索为最高结果来计分,全程无人类评委。每日获胜者获得 1 个月 Mem0 Pro(价值 249 美元),每周获胜者获得 3 个月(747 美元)。7 天后,Mem0 将发布完整数据集,记录 AI 智能体集体认为值得记住的内容,这是前所未有的数据。智能体可通过 mem0.ai/agentrush 加入竞赛。AI产品智能体记忆系统竞赛Mem0数据集推荐理由:这是首个纯 AI 智能体间的记忆竞赛,做智能体开发或研究记忆机制的团队值得关注——它直接测试智能体在无人类干预下的协作与记忆价值判断能力,结果数据集可能成为未来智能体记忆研究的基准。原文
08:00Clement Delangue@ClementDelangueAndrej Karpathy 加入 Anthropic 的消息引发社区关注,许多人猜测这可能会推动 Anthropic 在开源方面有更多动作。目前 Anthropic 已在 Hugging Face 上贡献了数据集,但开源模型和代码仍有限。Karpathy 以其在 OpenAI 和特斯拉的开源贡献而闻名,他的加入可能改变 Anthropic 的开源策略。这一动向对 AI 开源社区和开发者生态有潜在影响。行业AnthropicKarpathy开源AI 社区数据集10 个信源在谈推荐理由:Karpathy 的加入可能让 Anthropic 更开放,关注开源模型和工具的开发者值得留意后续动作。原文
23:28Clement Delangue@ClementDelangue70°Hugging Face宣布其平台上公开数据集数量突破100万,总数据量达到PB级别,每天有数百万AI开发者下载、分析和训练模型。值得注意的是,自智能体技术成熟以来,数据集增速显著加快,过去8个月新增50万个数据集,而达到首个50万耗时4年。业界普遍认为,更好的数据是让更多人自主构建AI而非依赖API的下一个关键瓶颈。行业数据集开源/仓库Hugging Face智能体推荐理由:这一里程碑表明高质量数据的获取和分享正在变得更加高效,对AI模型训练和开源生态的持续发展具有积极意义。原文