13:47arXiv cs.LG@Shaivi Malik该论文提出一个探索性框架,将神经网络模型编辑形式化为强化学习问题,代理通过奖励反馈修改模型参数。框架包含两个环境:MaskWorld(乘法缩放权重)和 ShiftWorld(加法更新权重),奖励函数结合效用保持和任务特定编辑目标。在文本分类的偏见缓解和图像分类的机器遗忘任务上,学习到的策略在遗忘任务中将遗忘集准确率降至接近 0%,同时保留集准确率超过 90%;在偏见缓解中,偏见相关性能提升超 5% 且保持分类效用。结果表明,模型编辑可通过 RL 学习策略,无需为每个任务手动设计专用算法。论文强化学习模型编辑偏见缓解机器遗忘arXiv推荐理由:这个框架让做模型微调或安全对齐的团队省去手动设计编辑算法的时间,直接用 RL 学习策略就能完成偏见缓解或遗忘任务,值得关注。原文