DistIL：用分布化DAgger实现丰富反馈的强化学习

精选理由

DistIL解决了RLVR只利用最终答案信号的局限，让模型能从执行过程和专家反馈中学习，做推理模型和编程助手的团队值得关注这一新范式。

AI 摘要

当前主流的强化学习从可验证奖励（RLVR）方法仅使用最终答案正确与否的单一比特信号，忽略了执行轨迹、工具输出、专家修正和模型自评估等丰富反馈。研究者提出DistIL方法，基于分布化DAgger算法，通过前向交叉熵目标利用这些反馈，实现序列级别的信用分配。理论证明该方法能保证单调策略改进和遗憾界，而基于反向KL或JS散度的自蒸馏目标则无法保证。实验表明，DistIL在科学推理、编程和数学问题求解等多个领域优于RLVR和自蒸馏基线。

AI 翻译 · 中文

arXiv cs.AIReasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whethe…

阅读原文