使用NVIDIA Open-SWE-Traces构建监督微调数据：轨迹解析与补丁分析教程

精选理由

想自己动手做代码智能体微调数据？这教程手把手教你解析NVIDIA开源的Open-SWE-Traces，连Token预算和工具使用指标都算好了。

AI 摘要

本教程演示如何从Hugging Face流式加载NVIDIA Open-SWE-Traces数据集，无需本地下载即可在Google Colab中高效处理。内容涵盖多轮智能体对话标准化、代码补丁解析、构建包含轨迹长度、工具使用次数、补丁大小、语言分布及解决结果的分析DataFrame。最后基于成功标签、Token限制、语言过滤和补丁可用性筛选出监督微调子集。

使用NVIDIA Open-SWE-Traces构建监督微调数据：轨迹解析与补丁分析教程 — 图片来源 · marktechpost

AI 翻译 · 中文

marktechpostIn this tutorial, we work with NVIDIA's Open-SWE-Traces dataset to study agentic software-engineering trajectories for fine-tuning. We stream the data directly from Hugging Face, so we can process it efficiently in Googl…

Geek06-26 07:42原文
Fireworks AI06-25 23:54原文
AWS Machine Learning Blog06-25 16:41原文
techcrunch06-26 17:43原文

阅读原文