10:31
arXiv: DeepSeek@Sidi Yang, Chaofan Tao, Jierun Chen, Tiezheng Yu, Ruoyu Wang, Yuxin Jiang, Yiming Du, Wendong Xu, Jing Xiong, Taiqiang Wu, Lifeng Shang, Xiaohui Li, Ngai Wong, Haoli Bai 一篇新论文挑战了“更强代码智能体更适合训练学生”的常见假设。研究者构建了Terminal-Lego流水线,将多领域真实问题转化为可验证的智能体任务。实验发现,尽管Claude Opus 4.6在基准测试中得分更高,但用DeepSeek-V3.2(得分较低)的轨迹微调的学生模型,泛化能力反而更强。这种“教学悖论”归因于环境监督(EGS):暴露“检查-行动-验证”行为的轨迹,能让学生学到稳健的问题解决模式。仅用1.53万条轨迹,Qwen3-32B就达到了此前需要30倍数据量的SOTA水平,表明智能体后训练的关键在于“环境交互结构设计”。
推荐理由:这篇论文推翻了“老师越强,学生越好”的直觉,做智能体微调的团队会发现数据质量和交互结构比模型能力更重要,值得仔细读实验设计。