全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

12:04

12:04

arXiv cs.LG@Lei Yang, Siyu Ding, Deyi Xiong

该研究揭示了多域强化学习（RL）中一个关键问题：在数学推理、代码生成等单一领域训练会损害其他领域性能。现有解释（如灾难性遗忘或全局梯度冲突）不完整，因为即使全模型梯度几乎正交时，干扰仍会发生。研究发现，单域RL产生稀疏、小幅度的参数编辑，不同领域共享大量活跃计算路径，更新方向决定协同或冲突。基于局部扰动模型，作者证明后期训练主要通过二阶损伤项损害早期领域，该损伤集中在低维共享冲突子空间。通过短暂领域刷新（如代码→数学→问答→创意写作后重新训练数学），数学性能从57.66恢复至66.04，且其他领域性能保持良好，平均得分达66.39。此外，无训练的回滚方法也部分恢复了数学性能，提供了局部损伤的直接证据。

论文强化学习多域训练干扰恢复局部扰动 LLM后训练

推荐理由：该理论解释了多域RL训练中性能下降的机制，并提出了有效的恢复方法，对从事LLM后训练和多任务学习的开发者有直接指导意义，建议关注其刷新策略。