论文72°

终端智能体训练:低分模型轨迹反而教得更好?

What Makes Interaction Trajectories Effective for Training Terminal Agents?

精选理由

这篇论文推翻了“老师越强,学生越好”的直觉,做智能体微调的团队会发现数据质量和交互结构比模型能力更重要,值得仔细读实验设计。

AI 摘要

一篇新论文挑战了“更强代码智能体更适合训练学生”的常见假设。研究者构建了Terminal-Lego流水线,将多领域真实问题转化为可验证的智能体任务。实验发现,尽管Claude Opus 4.6在基准测试中得分更高,但用DeepSeek-V3.2(得分较低)的轨迹微调的学生模型,泛化能力反而更强。这种“教学悖论”归因于环境监督(EGS):暴露“检查-行动-验证”行为的轨迹,能让学生学到稳健的问题解决模式。仅用1.53万条轨迹,Qwen3-32B就达到了此前需要30倍数据量的SOTA水平,表明智能体后训练的关键在于“环境交互结构设计”。

AI 翻译 · 中文

一篇新论文挑战了“更强代码智能体更适合训练学生”的常见假设。研究者构建了Terminal-Lego流水线,将多领域真实问题转化为可验证的智能体任务。实验发现,尽管Claude Opus 4.6在基准测试中得分更高,但用DeepSeek-V3.2(得分较低)的轨迹微调的学生模型,泛化能力反而更强。这种“教学悖论”归因于环境监督(EGS):暴露“检查-行动-验证”行为的轨迹,能让学生学到稳健的问题解决模式。仅用1.53万条轨迹,Qwen3-32B就达到了此前需要30倍数据量的SOTA水平,表明智能体后训练的关键在于“环境交互结构设计”。

arXiv: DeepSeekStronger code agents are commonly assumed to be superior teachers for post-training, yet this assumption remains poorly disentangled from task difficulty, harness design, and student capacity. We investigate this pedagog