全部 AI 动态 · AI 热点

6月23日

12:01

12:01

arXiv: DeepSeek@Pengxiang Cai, Tianchen Fang, Xiaohan Li, Qingyuan Zeng, Guocong Li, Jintai Chen

精选

传统RLVR方法仅重新分配采样概率，虽能提升pass@1但可能降低pass@k，无法扩展基础模型的推理能力边界。本文提出边界感知课程RL：先用pass@k采样定位当前推理边界，再对边界附近样本进行教师引导，最后用RL巩固新推理模式。在Qwen、Llama、DeepSeek等模型上，该方法在pass@256上平均比基础模型提升9.8个百分点，比Vanilla RLVR提升10.3个百分点。实验表明该策略可帮助LLM持续突破经验推理边界。

论文课程强化学习 LLM推理 RLVR pass@k评估基础模型

推荐理由：这篇论文提出一种课程强化学习，能帮LLM突破自己的推理能力边界，在多个模型上效果显著，值得关注。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？