精选理由
想自己动手做代码智能体微调数据?这教程手把手教你解析NVIDIA开源的Open-SWE-Traces,连Token预算和工具使用指标都算好了。
本教程演示如何从Hugging Face流式加载NVIDIA Open-SWE-Traces数据集,无需本地下载即可在Google Colab中高效处理。内容涵盖多轮智能体对话标准化、代码补丁解析、构建包含轨迹长度、工具使用次数、补丁大小、语言分布及解决结果的分析DataFrame。最后基于成功标签、Token限制、语言过滤和补丁可用性筛选出监督微调子集。
AI 翻译 · 中文
本教程演示如何从Hugging Face流式加载NVIDIA Open-SWE-Traces数据集,无需本地下载即可在Google Colab中高效处理。内容涵盖多轮智能体对话标准化、代码补丁解析、构建包含轨迹长度、工具使用次数、补丁大小、语言分布及解决结果的分析DataFrame。最后基于成功标签、Token限制、语言过滤和补丁可用性筛选出监督微调子集。
In this tutorial, we work with NVIDIA's Open-SWE-Traces dataset to study agentic software-engineering trajectories for fine-tuning. We stream the data directly from Hugging Face, so we can process it efficiently in Googl…