全部 AI 动态 · AI 热点

6月20日

06:15

06:15

marktechpost@Asif Razzaq

VibeThinker-3B是一个3B参数的MIT许可证推理模型，基于Qwen2.5-Coder-3B构建。该模型采用Spectrum-to-Signal后训练流水线。在可验证基准上，它匹配了DeepSeek V3.2和Kimi K2.5的性能。

AI模型 VibeThinker-3B Qwen2.5-Coder-3B DeepSeek V3.2 Kimi K2.5 推理模型

推荐理由：3B参数就能比肩DeepSeek V3.2和Kimi K2.5，基于Qwen2.5-Coder-3B开源，适合资源受限场景的推理任务。

6月18日

09:22

09:22

arXiv: DeepSeek@Siddharth Aphale, Kelly Liu

一项研究分析了SFT（监督微调）的过度训练对RLVR（基于强化学习的验证）训练的影响。使用Qwen2.5-Coder-3B和DeepSeek-Coder-6.7B模型，发现SFT深度增加时，预RL的pass@1上升，但GRPO的pass@10从0.806降至0.481（3种子均值，n=20）。预RL熵与GRPO结果正相关（ρ=+0.69）。研究者提出一个两阶段诊断方法，结合预RL熵筛选和早期GRPO熵监控，可标记高风险检查点。简单KL正则化和标签平滑无法挽救已崩溃的检查点。

论文 Qwen2.5-Coder-3B DeepSeek-Coder-6.7B SFT RLVR 强化学习

推荐理由：这篇论文发现了SFT过训练会搞崩GRPO训练的秘密，还给出了诊断方法来提前止损。做RLHF或强化学习训练的可以看看。

03:58

03:58

Sebastian Raschka@rasbt

精选

VibeCoder采用Qwen2.5-Coder-3B作为基座，通过一套后训练技术栈大幅提升性能。技术报告显示其包含高信号合成数据、多重推理路径、2阶段SFT（先广训再难长推理样本）、MGPO（MaxEnt-Guided Policy Optimization）强化学习等9个关键组件。训练顺序为Math RL→Code RL→STEM RL，并采用了单64k长上下文RL而非渐进扩展。最后通过奖励短正确轨迹来提升效率而不牺牲准确性。

论文 VibeCoder Qwen2.5-Coder-3B 推理模型强化学习微调

推荐理由：Sebastian Raschka分析了VibeCoder的后训练秘诀，基于3B模型就取得惊人成绩，训练顺序和RL方法值得参考。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？