全部 AI 动态 · AI 热点

6月18日

03:58

03:58

Sebastian Raschka@rasbt

精选

VibeCoder采用Qwen2.5-Coder-3B作为基座，通过一套后训练技术栈大幅提升性能。技术报告显示其包含高信号合成数据、多重推理路径、2阶段SFT（先广训再难长推理样本）、MGPO（MaxEnt-Guided Policy Optimization）强化学习等9个关键组件。训练顺序为Math RL→Code RL→STEM RL，并采用了单64k长上下文RL而非渐进扩展。最后通过奖励短正确轨迹来提升效率而不牺牲准确性。

论文 VibeCoder Qwen2.5-Coder-3B 推理模型强化学习微调

推荐理由：Sebastian Raschka分析了VibeCoder的后训练秘诀，基于3B模型就取得惊人成绩，训练顺序和RL方法值得参考。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？