N-GRPO：嵌入级邻居混合增强策略优化

精选理由

N-GRPO 解决了 GRPO 框架中探索与语义保持的冲突，做强化学习或数学推理优化的研究者可以直接参考其嵌入混合策略。

AI 摘要

当前大语言模型在数学推理中面临 rollout 阶段的两难：token 级采样产生冗余轨迹，嵌入级随机噪声破坏语义一致性。N-GRPO 提出语义邻居混合机制，通过混合锚点 token 与其最近语义邻居的嵌入来注入多样性，同时保持局部语义流形。实验表明，该方法在 DeepSeek-R1-Distill-Qwen 系列模型上，数学推理基准一致优于强基线，并展现出良好的分布外泛化能力。

AI 翻译 · 中文

arXiv: DeepSeekThe success of Large Language Models in mathematical reasoning relies heavily on the generation of diverse and valid solution paths during the rollout phase. However, current rollout techniques face a fundamental trade-o…

阅读原文