09:12arXiv: DeepSeek@Xukun Zhu, Hang Yu, Peng Di, Linchao Zhu精选当前大语言模型在数学推理中面临 rollout 阶段的两难:token 级采样产生冗余轨迹,嵌入级随机噪声破坏语义一致性。N-GRPO 提出语义邻居混合机制,通过混合锚点 token 与其最近语义邻居的嵌入来注入多样性,同时保持局部语义流形。实验表明,该方法在 DeepSeek-R1-Distill-Qwen 系列模型上,数学推理基准一致优于强基线,并展现出良好的分布外泛化能力。论文N-GRPOGRPO数学推理嵌入混合策略优化推荐理由:N-GRPO 解决了 GRPO 框架中探索与语义保持的冲突,做强化学习或数学推理优化的研究者可以直接参考其嵌入混合策略。原文