精选理由
做智能体训练或微调的开发者终于有了大规模合成轨迹数据源——SynthTraces 用双模型对话自动生成 2000+ 条真实代码库交互轨迹,比手动标注高效太多,做 LLM 对齐或 Pi 优化的团队可以直接用。
Julien C 发布新项目 SynthTraces,这是一个最小化代码库,用于生成合成编程智能体会话轨迹。它让一个开放模型(通过 Hugging Face Inference Providers 服务)扮演编程智能体,另一个小模型(llama.cpp)扮演人类用户,在真实开源代码库(HuggingFace OSS 项目)上进行交互。最终生成了超过 2000 条 Pi 会话轨迹,可用于训练或微调 LLM,并针对 Pi 进行优化。所有数据已发布在 Hugging Face 上。
AI 翻译 · 中文
Julien C 发布新项目 SynthTraces,这是一个最小化代码库,用于生成合成编程智能体会话轨迹。它让一个开放模型(通过 Hugging Face Inference Providers 服务)扮演编程智能体,另一个小模型(llama.cpp)扮演人类用户,在真实开源代码库(HuggingFace OSS 项目)上进行交互。最终生成了超过 2000 条 Pi 会话轨迹,可用于训练或微调 LLM,并针对 Pi 进行优化。所有数据已发布在 Hugging Face 上。
Today I'm launching a new project called SynthTraces 🔥 It is a minimal codebase to generate synthetic coding agent session traces using Pi (from @badlogicgames ) I wanted a large number of coding-agent traces, so I …