精选 AI 资讯 · AI 热点

6月23日

12:01

arXiv: DeepSeek@Pengxiang Cai, Tianchen Fang, Xiaohan Li, Qingyuan Zeng, Guocong Li, Jintai Chen

精选

传统RLVR方法仅重新分配采样概率，虽能提升pass@1但可能降低pass@k，无法扩展基础模型的推理能力边界。本文提出边界感知课程RL：先用pass@k采样定位当前推理边界，再对边界附近样本进行教师引导，最后用RL巩固新推理模式。在Qwen、Llama、DeepSeek等模型上，该方法在pass@256上平均比基础模型提升9.8个百分点，比Vanilla RLVR提升10.3个百分点。实验表明该策略可帮助LLM持续突破经验推理边界。

论文课程强化学习 LLM推理 RLVR pass@k评估基础模型

推荐理由：这篇论文提出一种课程强化学习，能帮LLM突破自己的推理能力边界，在多个模型上效果显著，值得关注。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

10:26

arXiv cs.AI@Shumeng Yang, Yisu Liu, Jiayi Zheng, Zhaohui Yang, Linjing Li

精选

论文提出PAEC（位置感知熵校准）方法，解决强化学习（RLVR）中策略熵过早崩溃的问题。传统全局熵正则化对所有位置均匀增加熵，在长推理轨迹中效率低下。PAEC通过局部top-p熵和top-two候选竞争构建软掩码，对决策敏感位置施加基于锚点的下界惩罚，防止这些位置的熵崩溃。在五个数学推理基准测试中，PAEC相比强RLVR基线提升了多数投票的宏平均性能，尤其在AIME类任务上增益明显。结果表明，推理RL中的熵管理应聚焦于决策敏感位置的选择性探索，而非均匀随机注入。

论文强化学习推理模型熵校准数学推理 RLVR

推荐理由：做LLM推理强化学习的团队终于有了更精细的熵控制方案——PAEC在数学推理任务上直接提升多数投票性能，做RLVR的开发者值得关注这个位置感知的新思路。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月21日

12:11

arXiv cs.LG@Kaiyi Zhang, Wei Wu, Yankai Lin

精选

DelTA提出了一种新方法，解决强化学习从可验证奖励（RLVR）中训练大语言模型时，token级信用分配不准确的问题。研究发现，标准RLVR更新中，高频格式token会主导梯度方向，掩盖真正区分高/低奖励的关键token。DelTA通过估计token系数，放大判别性方向、抑制共享模式，使更新更聚焦于推理关键步骤。在7个数学基准上，DelTA在Qwen3-8B和14B上分别平均提升3.26和2.62分，代码生成和跨领域任务也验证了其泛化能力。

论文强化学习 Token信用分配推理模型 RLVR 数学推理

推荐理由：做RLHF或推理模型训练的团队，终于有了一个能精准分配token级信用的方法——DelTA解决了高频格式token淹没关键信号的问题，数学和代码任务上效果显著，值得在自家模型上试试。

原文

10:22

arXiv cs.LG@Xixiang He, Qiyao Sun, Ao Cheng, Xingming Li, Xuanyu Ji, Hailun Lu, Runke Huang, Qingyong Hu

精选72°

Group Relative Policy Optimization (GRPO) 在提升大语言模型推理能力方面表现出色，但存在优势坍塌问题：当组内奖励同质化（如全对或全错）时，优势趋近于零，导致梯度消失。研究者首次提出诊断指标 Advantage Collapse Rate (ACR)，量化训练批次中梯度无效的比例，并在0.5B至14B参数模型上验证了ACR对训练停滞和最终性能的强预测性。为缓解该问题，他们提出 Adaptive Virtual Sample Policy Optimization (AVSPO)，通过实时ACR监控注入虚拟奖励样本，无需额外模型推理即可从同质组中学习。AVSPO将优势坍塌减少58-63%，在所有模型规模上带来4-6个百分点的准确率提升，且保持了域外泛化能力。代码和数据集已开源。

论文 GRPO 优势坍塌 RLVR 推理模型开源/仓库

推荐理由：GRPO用户终于有了解决训练停滞的实用工具——AVSPO无需额外推理成本就能提升4-6个点准确率，做大模型RL训练的团队可以直接试。

原文

5月20日

15:34

arXiv cs.AI@Utkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He

精选

强化学习中的可验证奖励（RLVR）在自动检查正确性时很有效，但许多模型行为需要同时满足多个定性标准。基于评分标准的奖励（rubric-based rewards）通过聚合多个标准来解决这一问题，但静态聚合会混淆人类赋予的重要性和当前优化信号的有效性。研究人员提出POW3R框架，它能在训练过程中动态调整各标准的奖励权重，优先关注当前能区分模型输出的标准。实验表明，POW3R在30个基线策略/指标比较中赢了24个，平均奖励和严格完成率均优于传统方法，且训练速度提升2.5-4倍。

论文强化学习奖励设计 RLVR 评分标准 POW3R

推荐理由：做RLHF或RLVR的团队终于有了更聪明的奖励设计——POW3R解决了静态评分标准浪费训练信号的问题，做多模态或文本模型对齐的开发者可以直接参考实验设置。

原文

10:44

arXiv: DeepSeek@Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li

精选

GoLongRL 是一个完全开源的长上下文强化学习训练方案，包含 23K 样本的数据集、完整构建流程和训练代码。该方案基于长上下文能力分类法，覆盖 9 种任务类型，每个任务配有自然评估指标，数据来源包括书籍、学术论文和多轮对话等真实文档。在相同 GRPO 设置下，GoLongRL 数据集优于闭源的 QwenLong-L1.5 数据集，且 Qwen3-30B-A3B 模型在长上下文任务上表现接近 DeepSeek-R1-0528 和 Qwen3-235B-A22B。此外，论文提出 TMN-Reweight 方法，通过任务级均值归一化和难度自适应加权，解决异构奖励优化问题，进一步提升平均性能并保持通用能力。

论文长上下文强化学习开源/仓库 RLVR 多任务对齐

推荐理由：长上下文 RL 训练的数据构建和奖励设计一直是个难题，GoLongRL 提供了开源数据集和优化方法，做长上下文模型训练的团队可以直接复用，省去大量数据构造工作。

原文