01:36Clement Delangue@ClementDelangue精选Hugging Face 宣布其存储平台已成为私有和公开模型及数据集的最佳选择,支持中间和最终版本。以 @heyjasperai 为例,他们使用 HF 存储桶存储 Monet 数据集并直接在其上训练模型。这展示了 HF 在 AI 存储和训练工作流中的一体化能力。对于需要管理大型模型和数据集的团队,HF 提供了便捷的存储和训练集成方案。AI产品Hugging Face存储平台数据集模型训练AI 基础设施推荐理由:Hugging Face 将存储与训练无缝集成,管理模型和数据集的团队可以直接在平台上完成从存储到训练的全流程,省去多平台切换的麻烦。原文
09:06arXiv: DeepSeek@Jinghua Wang, Lily Jiaxin Wan, Sanjana Pingali, Scott Smith, Manvi Jha, Shalini Sivakumar, Xing Zhao, Kaiwen Cao, Deming Chen精选OpenRTLSet 发布了目前最大的全开源硬件设计数据集,包含超过 131,000 个多样化的 Verilog 代码样本。数据集整合了来自 GitHub 的 102k 模块、VHDL 翻译的 5k 模块以及可综合 C/C++ 翻译的 24k 模块,全部免费开放且无专有限制。研究团队利用推理模型 DeepSeek-R1 为每个代码样本生成了对应的自然语言描述,可用于微调 Qwen、Granite 等语言模型以生成 Verilog 代码。实验还探索了 Verilator 生成的 C++ 文件作为额外上下文、INT4 与 BF16 量化技术以及 7B-32B 参数模型间的性能差异。结果表明,开源方法在硬件设计任务上能达到甚至超越专有方案,为可访问的研究和商业应用奠定了新基础。论文硬件设计Verilog数据集开源/仓库DeepSeek-R1推荐理由:硬件设计领域终于有了大规模开源数据集,做芯片验证或 RTL 生成的团队可以直接用这 13 万样本微调模型,省去自己爬取和标注的麻烦。建议做 EDA 工具或 AI for Hardware 的开发者点开看看。原文
12:21IT之家(博客/媒体)精选智元机器人开源了行业首个聚焦物理交互的具身数据集 AGIBOT WORLD 2026 第二期“多样交互”。该数据集系统记录了机器人与真实物理世界之间的复杂、高密度、非理想交互过程,旨在补齐当前世界模型训练中缺失的真实物理交互数据。它将具身智能的数据范式从“学习成功动作”推进到“理解完整的物理分布”,对世界模型、神经仿真器、物理感知等研究至关重要。目前数据集已在 Hugging Face 开放下载。AI模型具身智能开源/仓库数据集物理交互智元推荐理由:做具身智能或世界模型研究的团队终于有了真实物理交互数据,不再是模拟器里的完美动作——补齐了训练的关键短板,搞机器人的建议直接去 Hugging Face 下载。原文
10:20Clement Delangue@ClementDelangue精选Hugging Face 联合创始人 Clement Delangue 在 X 上分享,他仅用不到 1 分钟就将一个 68TB 的数据集克隆到自己的私有训练存储桶中,而本地磁盘只有 4TB。这得益于 Hugging Face 的基础设施优化和 xet 去重技术。该功能让用户无需下载完整数据集即可直接使用,大幅节省时间和存储空间。对于需要大规模数据集的 AI 训练团队来说,这是一个效率提升的利器。AI产品Hugging Face数据集克隆去重基础设施推荐理由:做大规模 AI 训练的团队终于可以告别下载整个数据集的痛苦——68TB 数据集 1 分钟克隆到私有存储,建议所有需要管理海量数据的开发者点开看看。原文
08:48marktechpost@Sana Hassan精选72°AgentTrove 是目前最大的开源智能体交互轨迹数据集,包含 170 万条 ShareGPT 格式的记录。本文提供了一份详细的 Python 教程,演示如何在不完全下载的情况下流式读取数据集、标准化智能体对话轮次、提取命令、分析轨迹,并最终将成功的交互轨迹导出为干净的 SFT 微调数据集。这对于需要高质量智能体训练数据的开发者来说非常实用。技巧智能体数据集SFT 微调Python 教程开源/仓库推荐理由:做智能体微调的团队终于有了大规模、可流式处理的开源轨迹数据,不用再自己爬取或合成。想快速上手构建 ShareGPT 格式 SFT 数据集的开发者,这篇教程可以直接照着跑。原文
11:06arXiv cs.AI@Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal, Michael Jang, Michael Poli, Juan Carlos Niebles, Justin Johnson, Jiajun Wu, Li Fei-Fei精选72°斯坦福大学发布GPIC(Giant Permissive Image Corpus),一个包含约28万亿像素、1亿训练样本的开放许可图像数据集。所有图像均采用宽松许可,可自由用于研究和商业用途,并经过安全过滤和去重处理。数据集托管在Hugging Face上,附带基准测试协议和像素空间流匹配的参考基线。这为视觉生成模型的可扩展研究提供了稳定、大规模且合规的数据基础。论文视觉生成数据集开放许可图像生成斯坦福推荐理由:做视觉生成模型训练的研究者终于有了一个大规模、开放许可、可直接商用的数据集,不用再为版权和合规问题头疼。建议做图像生成、扩散模型或流匹配的团队直接下载使用。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
10:34arXiv cs.AI@Xintong Hu, Xuhong Huang, Jinyu Zhang, Yutong Yao, Yuchong Sun, Qiuyue Wang, Mingsheng Li, Sicheng Xie, Yitao Liu, Junhao Chen, Yixuan Chen, Yingming Zheng, Shuai Bai, Tao Yu精选72°现有机器人数据集通常只提供粗粒度的目标级语言描述,缺乏执行细节(如活动臂、接近方向、接触区域),限制了策略的可操控性。FineVLA 提出了一个开放框架,包括数据构建工具、细粒度数据集 FineVLA-Data(47,159 条轨迹)、基准测试、专用 VLM 标注器和可操控策略。实验表明,细粒度监督不仅不牺牲目标级成功率,还能提升 1.4-8.1 个百分点,且与粗粒度指令互补,最佳混合比例(FG:Raw=1:2 至 1:1)在仿真和真实场景中均取得最高性能。细粒度监督在姿态、颜色和接近方向等关键因素上带来最大真实世界增益,建议用细粒度语言补充目标级指令。论文VLA模型细粒度指令机器人策略数据集可操控性推荐理由:做机器人策略学习和 VLA 模型的研究者终于有了可用的细粒度数据框架——FineVLA 不仅开源了 47K 条验证轨迹和基准,还证明了细粒度指令能显著提升操控精度,做双臂操作或仿真迁移的团队可以直接用。原文
10:07arXiv: DeepSeek@Tianxiang Xu, Xiaoyan Zhu, Xin Lai, Xin Lian, Hangyu Cheng, Jiayin Wang精选现有软件缺陷检测研究缺乏针对生物信息学软件的专用数据集,导致模型在该领域表现受限。研究者推出了BioDefect,这是首个专为生物信息学软件缺陷检测设计的数据集,包含完整源代码仓库,保留了缺陷代码的真实上下文信息。该数据集解决了标签不一致和数据泄露问题,确保高质量和实验可靠性。在包括DeepSeek-R1在内的9个语言模型上的评估显示,BioDefect相比现有数据集平均F1分数提升29.61%至38.04%。这项工作填补了生物信息学软件缺陷检测的研究空白,为提升该领域软件质量保障提供了新方向。论文缺陷检测生物信息学数据集DeepSeek-R1软件质量推荐理由:做生物信息学软件质量保障的团队终于有了专用数据集——BioDefect 比通用数据集 F1 提升近 40%,做缺陷检测研究的可以直接用它来训练和评估模型。原文
15:54arXiv cs.AI@Chuanyang Jin, Binze Li, Haopeng Xie, Cathy Mengying Fang, Tianjian Li, Shayne Longpre, Hongxiang Gu, Maximillian Chen, Tianmin Shu精选现有AI对话数据集仅记录用户说了什么,但忽略了用户在想什么。ThoughtTrace是首个大规模数据集,包含1,058名用户、2,155次对话、17,058轮交互和10,174条思维标注,覆盖20种语言模型。研究发现,用户的思维与消息内容在语义上截然不同,前沿LLM难以从上下文中推断,且思维内容多样、与对话阶段相关。该数据集可用于改进用户行为预测和训练个性化助手,为构建更理解用户潜在目标的AI系统奠定基础。论文数据集用户思维对话AI个性化助手对齐推荐理由:做对话AI研究和产品开发的团队,终于有了一个能捕捉用户真实想法的数据集——ThoughtTrace帮你理解用户为什么发那条消息、对回复的真实感受,值得用来改进助手对齐和个性化。原文
10:20arXiv cs.AI@Hebin Hu, Renke Dai, Ah-Hwee Tan, Yilin Kang精选研究团队提出一个框架,用于合成高质量、长期医疗对话数据集MediLongChat,以评估医疗AI代理的记忆和推理能力。该框架通过知识引导分解为三个阶段:构建具有多样疾病和并发症轨迹的患者档案、生成每次就诊的多轮对话、整合为连贯的纵向历史数据集。他们设立了三个基准任务(对话内推理、跨对话推理、合成推理)来测试医疗代理的记忆能力。实验表明,即使最先进的LLM在MediLongChat上也表现不佳,凸显了该基准的挑战性和开发定制方法的必要性。论文医疗AI长期记忆对话系统数据集LLM评估推荐理由:医疗AI开发者终于有了一个能真正测试长期记忆能力的基准——MediLongChat让跨会话推理变得可评估,做医疗对话系统的团队建议直接拿来跑跑看。原文
11:20arXiv cs.LG@Corentin Dumery, Niki Amini-Naieni, Shervin Naini, Pascal Fua精选现有目标计数模型在混合物体场景中表现不佳,而真实数据集标注成本高且存在噪声,合成数据集又缺乏多样性和真实性。为此,研究者推出了MixCount数据集和基准测试,通过自动生成流水线合成图像、细粒度文本描述和像素级计数标注,解决了标注歧义问题。在MixCount上评估现有模型,发现其性能在混合场景下严重下降。但用MixCount数据训练后,模型在FSC-147和PairTally基准上的平均绝对误差分别降低20.14%和18.3%。这表明MixCount不仅能作为基准测试,还能提供近乎无限的标注数据,突破计数模型长期面临的数据瓶颈。论文目标计数数据集混合物体开放词汇自动生成推荐理由:做工业检测或产品分拣的团队,终于有专门针对混合物体场景的计数数据集了——用自动生成流水线解决标注难题,直接训练就能让模型在真实场景中MAE降20%,值得一试。原文
19:12arXiv cs.AI@Mannam Veera Narayana, Rohit Singh, Deepa M. R, Radha Krishna Ganti精选该研究发布了一个从商用5G网络收集的真实数据集,涵盖步行、自行车、汽车、公交和火车等多种移动模式及不同速度。数据集聚焦切换场景,包含定时提前测量等关键信号事件,旨在减少切换中断时间并维持连续吞吐量。现有研究多依赖仿真数据,无法反映真实部署行为,该数据集填补了这一空白。论文详细描述了数据采集设置、提取过程,并进行了探索性分析,特别关注移动性、波束管理和定时提前。该数据集可用于训练和评估AI/ML模型,例如定时提前预测,为6G原生AI移动性研究提供基础。论文6G5GAI/ML移动性数据集推荐理由:做6G/5G移动性优化或AI-Native网络研究的团队,终于有了真实部署数据来训练模型,比仿真数据靠谱得多,建议直接下载使用。原文