全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月29日

10:24

10:24

Clement Delangue@ClementDelangue

精选72°

Hugging Face CEO Clément Delangue指出，当前大多数人在用强化学习训练智能体LLM时，存在一个静默的bug：单轮RL表现完美，但加入工具调用后，损失函数会无故飙升，最终出现形状不匹配错误。根本原因在于，每次解析模型输出以检测工具调用时，重新对更新后的对话进行token化，可能导致梯度落在模型从未实际采样的序列上，从而产生无用的梯度信号。修复方法很简单：永远不要重新编码已经解码的token，将采样的token保存在一个缓冲区中，避免重新渲染。团队已发布深度分析，包括对主流开源模型家族的审计，显示大多数聊天模板已支持该修复。

论文强化学习智能体 Token编码训练陷阱开源模型

推荐理由：做多轮RL训练智能体LLM的团队，这个静默bug可能正在破坏你的训练曲线，看完这篇分析能直接修复，省下大量调试时间。