Provenance-Grounded Gating and Adaptive Recovery in Synthetic Post-Training Data Curation

精选理由

做合成数据后训练管线的团队会感兴趣——这篇论文用实验证明了来源证据门控和适应性恢复策略能显著提升数据质量，比简单重采样更高效，建议做数据筛选的开发者点开看看具体方法。

AI 摘要

这篇论文研究了合成后训练数据筛选中的两个关键问题：过滤信号是否基于生成样本的来源证据，以及被拒绝的样本能否被系统性地恢复而非永久丢弃。作者通过对抗性注入语料库提供真实失败标签，在多种门控配置、恢复策略和生成器规模下进行了受控实验。研究发现，精确的来源证据能提升强评判器的忠实度门控效果；幻觉门控和奖励门控拒绝的样本群体几乎不重叠，因此两者都必要；结合失败诊断与定向再生成的适应性恢复管线，在产出率、恢复率和注入召回率上均优于简单重采样。下游微调质量主要由生成器规模决定，过滤和恢复条件虽有贡献但属于次要因素。

AI 翻译 · 中文

arXiv cs.AISynthetic post-training pipelines commonly filter generated samples with reward models or holistic LLM judges, yet two practices remain rarely examined together: whether the filtering signal is grounded in the source evi…

阅读原文