全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月21日

12:09

12:09

arXiv cs.LG@Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng

精选76°

研究发现强化学习（RLVR）训练中模型权重的变化轨迹是低秩且高度可预测的，大部分性能提升来自秩-1近似。基于此，研究者提出RELEX方法，仅需观察少量训练步数（如50步），通过线性回归外推未来检查点（如1000步），即可匹配甚至超越完整RLVR训练的性能。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上验证，RELEX仅需15%的训练步数即可达到同等效果，且能外推至10-20倍于观察窗口。该方法无需额外学习模型，通过丢弃随机优化噪声实现去噪效果，从而提升外推性能。

论文强化学习推理模型低秩近似参数外推 Qwen

推荐理由：RLVR训练成本高昂，RELEX用极低成本实现同等推理提升，做LLM推理优化的团队可以直接用代码复现，值得一试。