06:15marktechpost@Asif RazzaqVibeThinker-3B是一个3B参数的MIT许可证推理模型,基于Qwen2.5-Coder-3B构建。该模型采用Spectrum-to-Signal后训练流水线。在可验证基准上,它匹配了DeepSeek V3.2和Kimi K2.5的性能。AI模型VibeThinker-3BQwen2.5-Coder-3BDeepSeek V3.2Kimi K2.5推理模型2 个信源在谈推荐理由:3B参数就能比肩DeepSeek V3.2和Kimi K2.5,基于Qwen2.5-Coder-3B开源,适合资源受限场景的推理任务。原文
09:22arXiv: DeepSeek@Siddharth Aphale, Kelly Liu一项研究分析了SFT(监督微调)的过度训练对RLVR(基于强化学习的验证)训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型,发现SFT深度增加时,预RL的pass@1上升,但GRPO的pass@10从0.806降至0.481(3种子均值,n=20)。预RL熵与GRPO结果正相关(ρ=+0.69)。研究者提出一个两阶段诊断方法,结合预RL熵筛选和早期GRPO熵监控,可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。论文Qwen2.5-Coder-3BDeepSeek-Coder-6.7BSFTRLVR强化学习推荐理由:这篇论文发现了SFT过训练会搞崩GRPO训练的秘密,还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。原文
03:58Sebastian Raschka@rasbt精选VibeCoder采用Qwen2.5-Coder-3B作为基座,通过一套后训练技术栈大幅提升性能。技术报告显示其包含高信号合成数据、多重推理路径、2阶段SFT(先广训再难长推理样本)、MGPO(MaxEnt-Guided Policy Optimization)强化学习等9个关键组件。训练顺序为Math RL→Code RL→STEM RL,并采用了单64k长上下文RL而非渐进扩展。最后通过奖励短正确轨迹来提升效率而不牺牲准确性。论文VibeCoderQwen2.5-Coder-3B推理模型强化学习微调推荐理由:Sebastian Raschka分析了VibeCoder的后训练秘诀,基于3B模型就取得惊人成绩,训练顺序和RL方法值得参考。原文