SynthTraces 发布:用双模型对话生成 2000+ 编程智能体轨迹

Today I'm launching a new project called SynthTraces 🔥 It is a minimal codebase to generate synthe...

精选理由

做智能体训练或微调的开发者终于有了大规模合成轨迹数据源——SynthTraces 用双模型对话自动生成 2000+ 条真实代码库交互轨迹,比手动标注高效太多,做 LLM 对齐或 Pi 优化的团队可以直接用。

AI 摘要

Julien C 发布新项目 SynthTraces,这是一个最小化代码库,用于生成合成编程智能体会话轨迹。它让一个开放模型(通过 Hugging Face Inference Providers 服务)扮演编程智能体,另一个小模型(llama.cpp)扮演人类用户,在真实开源代码库(HuggingFace OSS 项目)上进行交互。最终生成了超过 2000 条 Pi 会话轨迹,可用于训练或微调 LLM,并针对 Pi 进行优化。所有数据已发布在 Hugging Face 上。

AI 翻译 · 中文

Julien C 发布新项目 SynthTraces,这是一个最小化代码库,用于生成合成编程智能体会话轨迹。它让一个开放模型(通过 Hugging Face Inference Providers 服务)扮演编程智能体,另一个小模型(llama.cpp)扮演人类用户,在真实开源代码库(HuggingFace OSS 项目)上进行交互。最终生成了超过 2000 条 Pi 会话轨迹,可用于训练或微调 LLM,并针对 Pi 进行优化。所有数据已发布在 Hugging Face 上。

Julien ChaumondToday I'm launching a new project called SynthTraces 🔥 It is a minimal codebase to generate synthetic coding agent session traces using Pi (from @badlogicgames ) I wanted a large number of coding-agent traces, so I