可解释性分析后训练数据：让模型学习更可控

精选理由

做模型对齐和偏好优化的团队终于有了数据层面的诊断工具——不用再盲目调奖励权重，直接看数据教了模型什么。做安全对齐或模型人格定制的开发者建议点开，能省下大量试错时间。

AI 摘要

这篇论文提出了一种基于可解释性的后训练数据管道，用于诊断和修正偏好数据中的虚假关联。作者通过可解释性协议识别出数据中潜在的概念，让用户能明确哪些行为应该被模型学习。实验表明，该方法能有效缓解过度风格化、谄媚等不良行为，并增强安全性和个性等期望属性。这项工作将后训练从优化黑箱奖励转变为审计和塑造学习信号的过程。

AI 翻译 · 中文

arXiv cs.LGLanguage-model post-training is the main stage at which model behavior is shaped, yet it still largely involves optimization of scalar rewards that summarize diverse desiderata. This abstraction gives practitioners littl…

阅读原文