精选理由
这篇论文用奖励方差自动发现困难样本并生成新数据,训练效率比静态数据高20倍,特别适合多轮工具智能体场景。
多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽的问题。研究观察到GRPO中梯度集中在高奖励方差任务上,基于Popoviciu上界。提出RODS方法,利用进度奖励方差作为零成本边界检测器,无需额外推理。通过技能对齐重采样管道合成新多轮变体,维护动态缓冲池。从400个人工种子开始,保持约800样本活跃池,达到与17K样本离线管道相当性能,轨迹数减少约20倍。
AI 翻译 · 中文
多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽的问题。研究观察到GRPO中梯度集中在高奖励方差任务上,基于Popoviciu上界。提出RODS方法,利用进度奖励方差作为零成本边界检测器,无需额外推理。通过技能对齐重采样管道合成新多轮变体,维护动态缓冲池。从400个人工种子开始,保持约800样本活跃池,达到与17K样本离线管道相当性能,轨迹数减少约20倍。
Multi-turn tool-use RL is bottlenecked by the rapid depletion of informative samples in static datasets. We observe that the gradient signal in GRPO concentrates on tasks with the highest rollout reward variance, a conse…