论文72°

DistIL:用分布化DAgger实现丰富反馈的强化学习

Reinforcement Learning from Rich Feedback with Distributional DAgger

精选理由

DistIL解决了RLVR只利用最终答案信号的局限,让模型能从执行过程和专家反馈中学习,做推理模型和编程助手的团队值得关注这一新范式。

AI 摘要

当前主流的强化学习从可验证奖励(RLVR)方法仅使用最终答案正确与否的单一比特信号,忽略了执行轨迹、工具输出、专家修正和模型自评估等丰富反馈。研究者提出DistIL方法,基于分布化DAgger算法,通过前向交叉熵目标利用这些反馈,实现序列级别的信用分配。理论证明该方法能保证单调策略改进和遗憾界,而基于反向KL或JS散度的自蒸馏目标则无法保证。实验表明,DistIL在科学推理、编程和数学问题求解等多个领域优于RLVR和自蒸馏基线。

AI 翻译 · 中文

当前主流的强化学习从可验证奖励(RLVR)方法仅使用最终答案正确与否的单一比特信号,忽略了执行轨迹、工具输出、专家修正和模型自评估等丰富反馈。研究者提出DistIL方法,基于分布化DAgger算法,通过前向交叉熵目标利用这些反馈,实现序列级别的信用分配。理论证明该方法能保证单调策略改进和遗憾界,而基于反向KL或JS散度的自蒸馏目标则无法保证。实验表明,DistIL在科学推理、编程和数学问题求解等多个领域优于RLVR和自蒸馏基线。

arXiv cs.AIReasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whethe