SAERL：用稀疏自编码器内部信号指导LLM后训练数据工程

精选理由

做LLM后训练数据工程的团队终于有了从模型内部获取信号的方法——SAERL用SAE直接指导数据排序和过滤，比依赖外部信号更高效，做RL训练优化的开发者值得一试。

AI 摘要

论文提出SAERL框架，利用稀疏自编码器（SAE）提取模型内部信号，用于强化学习（RL）后训练的数据工程。SAERL建模了数据的多样性、难度和质量三个内在属性，分别实现批次多样性控制、易到难课程排序和数据过滤。在Qwen2.5-Math-1.5B上，SAERL相比原始GRPO平均准确率提升3%，训练步数减少20%，且在不同模型规模和RL算法上表现一致。实验表明SAE可跨模型族和规模迁移，是一种轻量可复用的数据工程工具。

AI 翻译 · 中文

arXiv cs.AIModel internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data engineering largely relies on external signals and ignores rich intrinsic signals ly…

阅读原文