arXiv cs.AI@Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard精选75该论文提出了一种新的语言模型后训练原则:将稀缺的标注验证数据优先用于最强模型(教师)进行稀疏奖励强化学习(如GRPO),然后通过稠密奖励蒸馏(如OPD)将行为迁移到小模型(学生)。实验表明,在固定学生模型大小(Qwen3-1.7B)下,先对8B教师进行RL再蒸馏,效果优于直接在学生上运行GRPO。该原则强调避免在未准备好的策略上使用稀缺数据,而是通过“稀疏奖励发现→稠密迁移→学生侧稀疏奖励”的流程优化资源分配。论文后训练强化学习知识蒸馏奖励设计Qwen3推荐理由:这篇论文为资源受限的团队提供了明确的训练策略——用最强模型做探索、用小模型做部署,做模型压缩或后训练的开发者可以直接参考这个稀疏到稠密的分配原则来提升效率。
Perplexity@perplexity_ai精选65Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明,GB200 不仅是训练平台,更是大型 MoE 模型高吞吐推理的重大升级,性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率,为大规模 AI 服务提供新思路。AI模型推理模型PerplexityQwen3NVIDIA GB200MoE推荐理由:做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著,Perplexity 的实践给出了可直接参考的优化路径。