论文精选

OpenRTLSet:最大开源Verilog数据集,131K样本助力硬件设计

OpenRTLSet: A Fully Open-Source Dataset for Large Language Model-based Verilog Module Design

精选理由

硬件设计领域终于有了大规模开源数据集,做芯片验证或 RTL 生成的团队可以直接用这 13 万样本微调模型,省去自己爬取和标注的麻烦。建议做 EDA 工具或 AI for Hardware 的开发者点开看看。

AI 摘要

OpenRTLSet 发布了目前最大的全开源硬件设计数据集,包含超过 131,000 个多样化的 Verilog 代码样本。数据集整合了来自 GitHub 的 102k 模块、VHDL 翻译的 5k 模块以及可综合 C/C++ 翻译的 24k 模块,全部免费开放且无专有限制。研究团队利用推理模型 DeepSeek-R1 为每个代码样本生成了对应的自然语言描述,可用于微调 Qwen、Granite 等语言模型以生成 Verilog 代码。实验还探索了 Verilator 生成的 C++ 文件作为额外上下文、INT4 与 BF16 量化技术以及 7B-32B 参数模型间的性能差异。结果表明,开源方法在硬件设计任务上能达到甚至超越专有方案,为可访问的研究和商业应用奠定了新基础。

AI 翻译 · 中文

OpenRTLSet 发布了目前最大的全开源硬件设计数据集,包含超过 131,000 个多样化的 Verilog 代码样本。数据集整合了来自 GitHub 的 102k 模块、VHDL 翻译的 5k 模块以及可综合 C/C++ 翻译的 24k 模块,全部免费开放且无专有限制。研究团队利用推理模型 DeepSeek-R1 为每个代码样本生成了对应的自然语言描述,可用于微调 Qwen、Granite 等语言模型以生成 Verilog 代码。实验还探索了 Verilator 生成的 C++ 文件作为额外上下文、INT4 与 BF16 量化技术以及 7B-32B 参数模型间的性能差异。结果表明,开源方法在硬件设计任务上能达到甚至超越专有方案,为可访问的研究和商业应用奠定了新基础。

arXiv: DeepSeekOpenRTLSet introduces the largest fully open-source dataset for hardware design, offering over 131,000 diverse Verilog code samples to the research community and industry. Our dataset uniquely combines Verilog code from