终端智能体训练：低分模型轨迹反而教得更好？

精选理由

这篇论文推翻了“老师越强，学生越好”的直觉，做智能体微调的团队会发现数据质量和交互结构比模型能力更重要，值得仔细读实验设计。

AI 摘要

一篇新论文挑战了“更强代码智能体更适合训练学生”的常见假设。研究者构建了Terminal-Lego流水线，将多领域真实问题转化为可验证的智能体任务。实验发现，尽管Claude Opus 4.6在基准测试中得分更高，但用DeepSeek-V3.2（得分较低）的轨迹微调的学生模型，泛化能力反而更强。这种“教学悖论”归因于环境监督（EGS）：暴露“检查-行动-验证”行为的轨迹，能让学生学到稳健的问题解决模式。仅用1.53万条轨迹，Qwen3-32B就达到了此前需要30倍数据量的SOTA水平，表明智能体后训练的关键在于“环境交互结构设计”。

AI 翻译 · 中文

arXiv: DeepSeekStronger code agents are commonly assumed to be superior teachers for post-training, yet this assumption remains poorly disentangled from task difficulty, harness design, and student capacity. We investigate this pedagog…

阅读原文