全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月14日

13:37

13:37

百川智能 Baichuan@BaichuanAI

精选

BaichuanAI 提出 SPAR 方法，将强化学习的信用分配对齐到决策发生的阶段，而非仅依赖最终奖励，从而优化模型训练。同时引入 Fact-Aware RL，通过检索验证原子性声明，使幻觉可测量和可优化。Rubric Evolution 机制自动挖掘并修补对抗性奖励漏洞。这些方法旨在提升大模型的事实准确性和训练效率。

论文强化学习幻觉优化信用分配 BaichuanAI 奖励机制

推荐理由：做 RLHF 或大模型对齐的团队，SPAR 直接解决了信用分配模糊的痛点，值得深入研究其分阶段优化思路。