16:03Decoder@Jonathan Kemper精选新浪微博发布开源模型VibeThinker-3B,仅30亿参数。在数学和编程基准上,它匹配了DeepSeek V3.2和Kimi K2.5,后两者参数规模大333倍。模型通过多阶段后训练实现高性能。研究人员假设:逻辑推理可压缩进小模型,但广泛世界知识不行。AI模型VibeThinker-3B新浪推理模型开源模型推荐理由:30亿参数的小模型推理能力居然能打千亿级大模型,新浪VibeThinker-3B在数学和编程上很强,而且开源了。原文
06:15marktechpost@Asif RazzaqVibeThinker-3B是一个3B参数的MIT许可证推理模型,基于Qwen2.5-Coder-3B构建。该模型采用Spectrum-to-Signal后训练流水线。在可验证基准上,它匹配了DeepSeek V3.2和Kimi K2.5的性能。AI模型VibeThinker-3BQwen2.5-Coder-3BDeepSeek V3.2Kimi K2.5推理模型2 个信源在谈推荐理由:3B参数就能比肩DeepSeek V3.2和Kimi K2.5,基于Qwen2.5-Coder-3B开源,适合资源受限场景的推理任务。原文
19:02kimmonismus@kimmonismusVibeThinker-3B是仅3B参数的小模型,在AIME26上取得94.3分,在LiveCodeBench v6上Pass@1达80.2,在未见过的LeetCode比赛中正确率96.1%。其训练基于Qwen2.5-Coder,结合课程SFT、多领域RL、离线自蒸馏和最终RL指导阶段。结果表明,部分可验证推理能力可被高效压缩到小密集模型中。AI模型VibeThinker-3BQwen2.5-Coder推理模型小模型代码生成推荐理由:3B的小模型在数学和代码推理上快追上大模型了,适合部署在低算力场景,值得关注。原文
10:46arXiv: DeepSeek@Sen Xu, Shixi Liu, Wei Wang, Jixin Min, Yingwei Dai, Zhibin Yin, Yirong Chen, Xin Zhou, Junlin ZhangVibeThinker-3B是一个3B参数的小型稠密模型,基于Spectrum-to-Signal后训练范式,通过课程监督微调、多域强化学习和离线自蒸馏提升。在AIME26上达到94.3分(测试时扩展至97.1),LiveCodeBench v6上Pass@1为80.2,最新LeetCode竞赛接受率96.1%。其性能与DeepSeek V3.2、GLM-5和Gemini 3 Pro等旗舰大模型相当或超越。IFEval得分为93.4,表明强推理未损害指令遵循能力。该工作提出了参数压缩-覆盖假说:可验证推理可压缩为紧凑推理核心,而开放域知识需宽参数覆盖。AI模型VibeThinker-3B推理模型可验证推理小语言模型基准成绩推荐理由:想看看3B小模型怎么打平千亿级大模型?VibeThinker-3B用AIME 94.3分、LiveCodeBench 80.2%的成绩告诉你,小模型也能杀进顶级推理梯队。原文