论文精选

SAERL:用稀疏自编码器内部信号指导LLM后训练数据工程

Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders

精选理由

做LLM后训练数据工程的团队终于有了从模型内部获取信号的方法——SAERL用SAE直接指导数据排序和过滤,比依赖外部信号更高效,做RL训练优化的开发者值得一试。

AI 摘要

论文提出SAERL框架,利用稀疏自编码器(SAE)提取模型内部信号,用于强化学习(RL)后训练的数据工程。SAERL建模了数据的多样性、难度和质量三个内在属性,分别实现批次多样性控制、易到难课程排序和数据过滤。在Qwen2.5-Math-1.5B上,SAERL相比原始GRPO平均准确率提升3%,训练步数减少20%,且在不同模型规模和RL算法上表现一致。实验表明SAE可跨模型族和规模迁移,是一种轻量可复用的数据工程工具。

AI 翻译 · 中文

论文提出SAERL框架,利用稀疏自编码器(SAE)提取模型内部信号,用于强化学习(RL)后训练的数据工程。SAERL建模了数据的多样性、难度和质量三个内在属性,分别实现批次多样性控制、易到难课程排序和数据过滤。在Qwen2.5-Math-1.5B上,SAERL相比原始GRPO平均准确率提升3%,训练步数减少20%,且在不同模型规模和RL算法上表现一致。实验表明SAE可跨模型族和规模迁移,是一种轻量可复用的数据工程工具。

arXiv cs.AIModel internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data engineering largely relies on external signals and ignores rich intrinsic signals ly