全部 AI 动态 · AI 热点

6月29日

10:08

arXiv cs.AI@Difan Jiao, Raghav Singhal, Robert West, Ashton Anderson

Tandem Reinforcement Learning (TRL) 将 tandem 训练范式引入带可验证奖励的强化学习（RLVR）。TRL 让一个较强的 senior 模型与一个冻结的 junior 模型随机交替协作生成推理过程，对最终结果给予奖励，并对 senior 应用标准 GRPO 损失。在 Qwen3-4B-Instruct 上使用竞赛数学训练，TRL 的 solo 推理能力与 vanilla GRPO 持平，但同时提升了 senior 与 junior 的交接鲁棒性、减少了 junior 侧分布漂移，并产出了对 junior 更易理解的思维链。该工作为多模型通信与人类兼容性提供了实际收益的路径。

AI模型 TRL Qwen3-4B GRPO 推理模型多模型协作

推荐理由：他们提出了 TRL，让强模型和弱模型组队推理，强模型学会写弱模型能看懂的推理过程。训练 Qwen3-4B 后，单打能力不降，协作能力更强。

原文

6月26日

10:35

arXiv cs.LG@Ping Liu, Qianqi Shen, Jianqiang Shen, Wenqiong Liu, Rajat Arora, Yunxiang Ren, Chunnan Yao, Dan Xu, Baofen Zheng, Wanjun Jiang, Andrii Soviak, Kevin Kao, Jingwei Wu, Wenjing Zhang

该论文提出一种RLAIF框架为招聘搜索平台自动生成可移植的搜索查询词。研究发现GRPO优化器对虚假奖励信号敏感，易导致模型复制原文的退化行为。通过引入基于规则的确定性奖励下限，抑制了动词复制行为，使交叉族评估指标提升0.147。实验表明训练时奖励模型将性能提升夸大了2.4倍，核心在于奖励塑形而非优化器选择。

论文 RLAIF GRPO 语义搜索招聘平台奖励塑形

推荐理由：这篇论文揭示了奖励信号设计比选优化器更重要，GRPO容易作弊，加个规则防御就能让质量跳升14.7%点。

原文

08:55

Fireworks AI@FireworksAI_HQ

精选

Fireworks 宣布对 NVIDIA Nemotron 3 的强化学习微调功能上线，首批支持 Nemotron 3 Super 的 LoRA 微调。训练采用 GRPO 算法，可在一处平台完成训练和部署。计费方式改为按 GPU 小时而非按 token，解决了长多轮对话成本不可控的问题。

AI产品 Nemotron 3 Fireworks 微调 RL训练 GRPO

推荐理由：Fireworks 刚上线了 Nemotron 3 的 RL 微调，按 GPU 小时计费不怕长对话烧钱，用 GRPO 训练一条龙搞定。

原文

6月23日

12:56

arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman

72°

SPIRAL提出一种新训练框架，让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件，在推理任务中扩展效果优于GRPO，最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。

论文 SPIRAL GRPO 推理模型强化学习链式思维

推荐理由：这篇论文的SPIRAL方法教模型自己学会并行思考再汇总，比单纯加大顺序推理高效11倍，效果还更好，值得做推理扩展的朋友看看。

原文

6月19日

23:54

elvis@omarsar0

精选

论文提出三阶段流水线，从GUI轨迹中分段、聚类候选技能并训练技能感知策略。八个聚类中五个纯度≥0.95。但GRPO仅将技能步准确率从18.5%提升至20.5%，低于频率先验。作者指出弱边界检测器、无序段表示和离线奖励模型是三大原因。

论文 SKILL.md Codex OpenAI 智能体 GRPO

推荐理由：这篇论文用OpenAI Codex的思路做智能体技能提取，八个聚类五个纯度超0.95，但GRPO只提了2个点，分析很实在。

原文

10:10

arXiv cs.AI@Bo Yin, Xiaobin Hu, Chengming Xu, Ruolin Shen, Mo Yang, Jiangning Zhang, Peng-Tao Jiang, Cheng Tan, Shuicheng YAN

SPOT-E方法针对视觉语言模型在处理证据密集型任务时因小区域视觉证据被忽略导致的读取失败问题。该方法利用答案跨度预测熵作为模型内部反馈，通过低熵锚点和熵整形目标消除歧义，避免模型陷入捷径塌缩。SPOT-E基于GRPO进行每实例轻量级调优，生成问题条件化的聚光灯。在多个VLM族和基准测试中，SPOT-E一致提升了性能并增强了视觉损坏鲁棒性。代码已开源。

论文 SPOT-E VLM GRPO 多模态测试时优化

推荐理由：SPOT-E这个新方法挺有意思，它不重训模型，只在推理时搞了个视觉聚光灯和熵整形，就让VLM在那些需要细看局部证据的任务上表现好多了。尤其用GRPO调优，效果提升还挺稳定。

原文

6月18日

10:54

arXiv cs.LG@Haipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang

STARE针对GRPO等强化学习训练中策略熵崩溃问题，提出令牌级信用分配纠偏方法。通过惊讶度分位数识别熵关键令牌子集，选择性重加权其有效优势，并引入目标熵闭环门控实现稳定熵调节。在1.5B至32B规模模型及短CoT、长CoT、多轮工具使用三类任务中，STARE可维持数千步稳定训练。在AIME24和AIME25上，STARE准确率较DAPO等基线提升4%-8%，反射令牌和响应长度同步增长，表明探索-利用平衡得到改善。代码已开源。

论文 STARE GRPO 策略熵强化学习推理模型

推荐理由：STARE解决了GRPO训练中策略熵崩溃的老问题，在AIME数学竞赛上比DAPO高4-8个点，代码也开源了，搞RL训练的同学可以试试。

原文

09:47

arXiv cs.AI@Ruishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin

多轮工具使用强化学习受限于静态数据集中信息样本快速耗尽的问题。研究观察到GRPO中梯度集中在高奖励方差任务上，基于Popoviciu上界。提出RODS方法，利用进度奖励方差作为零成本边界检测器，无需额外推理。通过技能对齐重采样管道合成新多轮变体，维护动态缓冲池。从400个人工种子开始，保持约800样本活跃池，达到与17K样本离线管道相当性能，轨迹数减少约20倍。

论文 RODS GRPO 工具使用智能体强化学习数据合成

推荐理由：这篇论文用奖励方差自动发现困难样本并生成新数据，训练效率比静态数据高20倍，特别适合多轮工具智能体场景。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

11:12

arXiv cs.AI@Xinyu Qiu, Yunzhu Zhang, Heng Jia, Shuheng Shen, Changhua Meng, Linchao Zhu

GRPO在GUI接地训练中因单视图采样导致有效信号不足。VISTA框架从多个保持目标元素可见的裁剪视图中构建比较组，并添加自验证跨视图锚点。在五个GUI接地基准上持续提升，ScreenSpot-Pro上Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7分别升至63.4/65.8/67.0。鲁棒性分析显示最差视图准确率更高、预测翻转率更低。

论文 VISTA GRPO GUI Grounding Qwen3-VL 智能体

推荐理由：多视图训练让GUI定位更准

原文

6月12日