精选理由
N-GRPO 解决了 GRPO 框架中探索与语义保持的冲突,做强化学习或数学推理优化的研究者可以直接参考其嵌入混合策略。
当前大语言模型在数学推理中面临 rollout 阶段的两难:token 级采样产生冗余轨迹,嵌入级随机噪声破坏语义一致性。N-GRPO 提出语义邻居混合机制,通过混合锚点 token 与其最近语义邻居的嵌入来注入多样性,同时保持局部语义流形。实验表明,该方法在 DeepSeek-R1-Distill-Qwen 系列模型上,数学推理基准一致优于强基线,并展现出良好的分布外泛化能力。
AI 翻译 · 中文
当前大语言模型在数学推理中面临 rollout 阶段的两难:token 级采样产生冗余轨迹,嵌入级随机噪声破坏语义一致性。N-GRPO 提出语义邻居混合机制,通过混合锚点 token 与其最近语义邻居的嵌入来注入多样性,同时保持局部语义流形。实验表明,该方法在 DeepSeek-R1-Distill-Qwen 系列模型上,数学推理基准一致优于强基线,并展现出良好的分布外泛化能力。
The success of Large Language Models in mathematical reasoning relies heavily on the generation of diverse and valid solution paths during the rollout phase. However, current rollout techniques face a fundamental trade-o…