精选理由
做LLM后训练数据工程的团队终于有了从模型内部获取信号的方法——SAERL用SAE直接指导数据排序和过滤,比依赖外部信号更高效,做RL训练优化的开发者值得一试。
论文提出SAERL框架,利用稀疏自编码器(SAE)提取模型内部信号,用于强化学习(RL)后训练的数据工程。SAERL建模了数据的多样性、难度和质量三个内在属性,分别实现批次多样性控制、易到难课程排序和数据过滤。在Qwen2.5-Math-1.5B上,SAERL相比原始GRPO平均准确率提升3%,训练步数减少20%,且在不同模型规模和RL算法上表现一致。实验表明SAE可跨模型族和规模迁移,是一种轻量可复用的数据工程工具。
AI 翻译 · 中文
论文提出SAERL框架,利用稀疏自编码器(SAE)提取模型内部信号,用于强化学习(RL)后训练的数据工程。SAERL建模了数据的多样性、难度和质量三个内在属性,分别实现批次多样性控制、易到难课程排序和数据过滤。在Qwen2.5-Math-1.5B上,SAERL相比原始GRPO平均准确率提升3%,训练步数减少20%,且在不同模型规模和RL算法上表现一致。实验表明SAE可跨模型族和规模迁移,是一种轻量可复用的数据工程工具。
Model internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data engineering largely relies on external signals and ignores rich intrinsic signals ly…