精选 AI 资讯 · AI 热点

6月12日

01:36

Clement Delangue@ClementDelangue

精选

Hugging Face 宣布其存储平台已成为私有和公开模型及数据集的最佳选择，支持中间和最终版本。以 @heyjasperai 为例，他们使用 HF 存储桶存储 Monet 数据集并直接在其上训练模型。这展示了 HF 在 AI 存储和训练工作流中的一体化能力。对于需要管理大型模型和数据集的团队，HF 提供了便捷的存储和训练集成方案。

AI产品 Hugging Face 存储平台数据集模型训练 AI 基础设施

推荐理由：Hugging Face 将存储与训练无缝集成，管理模型和数据集的团队可以直接在平台上完成从存储到训练的全流程，省去多平台切换的麻烦。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

09:06

arXiv: DeepSeek@Jinghua Wang, Lily Jiaxin Wan, Sanjana Pingali, Scott Smith, Manvi Jha, Shalini Sivakumar, Xing Zhao, Kaiwen Cao, Deming Chen

精选

OpenRTLSet 发布了目前最大的全开源硬件设计数据集，包含超过 131,000 个多样化的 Verilog 代码样本。数据集整合了来自 GitHub 的 102k 模块、VHDL 翻译的 5k 模块以及可综合 C/C++ 翻译的 24k 模块，全部免费开放且无专有限制。研究团队利用推理模型 DeepSeek-R1 为每个代码样本生成了对应的自然语言描述，可用于微调 Qwen、Granite 等语言模型以生成 Verilog 代码。实验还探索了 Verilator 生成的 C++ 文件作为额外上下文、INT4 与 BF16 量化技术以及 7B-32B 参数模型间的性能差异。结果表明，开源方法在硬件设计任务上能达到甚至超越专有方案，为可访问的研究和商业应用奠定了新基础。

论文硬件设计 Verilog 数据集开源/仓库 DeepSeek-R1

推荐理由：硬件设计领域终于有了大规模开源数据集，做芯片验证或 RTL 生成的团队可以直接用这 13 万样本微调模型，省去自己爬取和标注的麻烦。建议做 EDA 工具或 AI for Hardware 的开发者点开看看。

原文

6月3日

12:21

12:21IT之家（博客/媒体）

精选

智元机器人开源了行业首个聚焦物理交互的具身数据集 AGIBOT WORLD 2026 第二期“多样交互”。该数据集系统记录了机器人与真实物理世界之间的复杂、高密度、非理想交互过程，旨在补齐当前世界模型训练中缺失的真实物理交互数据。它将具身智能的数据范式从“学习成功动作”推进到“理解完整的物理分布”，对世界模型、神经仿真器、物理感知等研究至关重要。目前数据集已在 Hugging Face 开放下载。

AI模型具身智能开源/仓库数据集物理交互智元

推荐理由：做具身智能或世界模型研究的团队终于有了真实物理交互数据，不再是模拟器里的完美动作——补齐了训练的关键短板，搞机器人的建议直接去 Hugging Face 下载。

原文

6月2日

10:20

Clement Delangue@ClementDelangue

精选

Hugging Face 联合创始人 Clement Delangue 在 X 上分享，他仅用不到 1 分钟就将一个 68TB 的数据集克隆到自己的私有训练存储桶中，而本地磁盘只有 4TB。这得益于 Hugging Face 的基础设施优化和 xet 去重技术。该功能让用户无需下载完整数据集即可直接使用，大幅节省时间和存储空间。对于需要大规模数据集的 AI 训练团队来说，这是一个效率提升的利器。

AI产品 Hugging Face 数据集克隆去重基础设施

推荐理由：做大规模 AI 训练的团队终于可以告别下载整个数据集的痛苦——68TB 数据集 1 分钟克隆到私有存储，建议所有需要管理海量数据的开发者点开看看。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月30日

08:48

marktechpost@Sana Hassan

精选72°

AgentTrove 是目前最大的开源智能体交互轨迹数据集，包含 170 万条 ShareGPT 格式的记录。本文提供了一份详细的 Python 教程，演示如何在不完全下载的情况下流式读取数据集、标准化智能体对话轮次、提取命令、分析轨迹，并最终将成功的交互轨迹导出为干净的 SFT 微调数据集。这对于需要高质量智能体训练数据的开发者来说非常实用。

技巧智能体数据集 SFT 微调 Python 教程开源/仓库

推荐理由：做智能体微调的团队终于有了大规模、可流式处理的开源轨迹数据，不用再自己爬取或合成。想快速上手构建 ShareGPT 格式 SFT 数据集的开发者，这篇教程可以直接照着跑。

原文

5月29日

11:06

arXiv cs.AI@Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal, Michael Jang, Michael Poli, Juan Carlos Niebles, Justin Johnson, Jiajun Wu, Li Fei-Fei

精选72°

斯坦福大学发布GPIC（Giant Permissive Image Corpus），一个包含约28万亿像素、1亿训练样本的开放许可图像数据集。所有图像均采用宽松许可，可自由用于研究和商业用途，并经过安全过滤和去重处理。数据集托管在Hugging Face上，附带基准测试协议和像素空间流匹配的参考基线。这为视觉生成模型的可扩展研究提供了稳定、大规模且合规的数据基础。

论文视觉生成数据集开放许可图像生成斯坦福

推荐理由：做视觉生成模型训练的研究者终于有了一个大规模、开放许可、可直接商用的数据集，不用再为版权和合规问题头疼。建议做图像生成、扩散模型或流匹配的团队直接下载使用。

原文

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月27日

10:34

arXiv cs.AI@Xintong Hu, Xuhong Huang, Jinyu Zhang, Yutong Yao, Yuchong Sun, Qiuyue Wang, Mingsheng Li, Sicheng Xie, Yitao Liu, Junhao Chen, Yixuan Chen, Yingming Zheng, Shuai Bai, Tao Yu

精选72°

现有机器人数据集通常只提供粗粒度的目标级语言描述，缺乏执行细节（如活动臂、接近方向、接触区域），限制了策略的可操控性。FineVLA 提出了一个开放框架，包括数据构建工具、细粒度数据集 FineVLA-Data（47,159 条轨迹）、基准测试、专用 VLM 标注器和可操控策略。实验表明，细粒度监督不仅不牺牲目标级成功率，还能提升 1.4-8.1 个百分点，且与粗粒度指令互补，最佳混合比例（FG:Raw=1:2 至 1:1）在仿真和真实场景中均取得最高性能。细粒度监督在姿态、颜色和接近方向等关键因素上带来最大真实世界增益，建议用细粒度语言补充目标级指令。

论文 VLA模型细粒度指令机器人策略数据集可操控性

推荐理由：做机器人策略学习和 VLA 模型的研究者终于有了可用的细粒度数据框架——FineVLA 不仅开源了 47K 条验证轨迹和基准，还证明了细粒度指令能显著提升操控精度，做双臂操作或仿真迁移的团队可以直接用。

原文

5月21日

10:07