08:55Fireworks AI@FireworksAI_HQ精选Fireworks 宣布对 NVIDIA Nemotron 3 的强化学习微调功能上线,首批支持 Nemotron 3 Super 的 LoRA 微调。训练采用 GRPO 算法,可在一处平台完成训练和部署。计费方式改为按 GPU 小时而非按 token,解决了长多轮对话成本不可控的问题。AI产品Nemotron 3Fireworks微调RL训练GRPO6 个信源在谈推荐理由:Fireworks 刚上线了 Nemotron 3 的 RL 微调,按 GPU 小时计费不怕长对话烧钱,用 GRPO 训练一条龙搞定。原文
23:54elvis@omarsar0精选论文提出三阶段流水线,从GUI轨迹中分段、聚类候选技能并训练技能感知策略。八个聚类中五个纯度≥0.95。但GRPO仅将技能步准确率从18.5%提升至20.5%,低于频率先验。作者指出弱边界检测器、无序段表示和离线奖励模型是三大原因。论文SKILL.mdCodexOpenAI智能体GRPO10 个信源在谈推荐理由:这篇论文用OpenAI Codex的思路做智能体技能提取,八个聚类五个纯度超0.95,但GRPO只提了2个点,分析很实在。原文
11:03arXiv cs.LG@Semih Kara, Oğuzhan Ersoy精选该研究探讨了自蒸馏中上下文设计的关键作用,通过训练求解器接收冻结批评者的反馈,比较了三种条件:二元奖励、参考解决方案和步骤对齐批评。步骤对齐批评在Avg@12指标上比GRPO高出16.11分,比参考解决方案条件高出5.27分。分析表明,步骤对齐反馈仅针对推理失败的token,保留正确行为,而参考解决方案迫使模型在每个token上改变行为,导致效率降低。研究揭示了反馈与求解器推理的结构对齐是自蒸馏有效性的关键驱动因素。论文自蒸馏反馈对齐推理模型GRPO批评者推荐理由:做自蒸馏或强化学习的研究者会发现,步骤对齐反馈比传统奖励信号更高效,直接提升模型推理质量,值得在实验中尝试这种上下文设计。原文
09:12arXiv: DeepSeek@Xukun Zhu, Hang Yu, Peng Di, Linchao Zhu精选当前大语言模型在数学推理中面临 rollout 阶段的两难:token 级采样产生冗余轨迹,嵌入级随机噪声破坏语义一致性。N-GRPO 提出语义邻居混合机制,通过混合锚点 token 与其最近语义邻居的嵌入来注入多样性,同时保持局部语义流形。实验表明,该方法在 DeepSeek-R1-Distill-Qwen 系列模型上,数学推理基准一致优于强基线,并展现出良好的分布外泛化能力。论文N-GRPOGRPO数学推理嵌入混合策略优化推荐理由:N-GRPO 解决了 GRPO 框架中探索与语义保持的冲突,做强化学习或数学推理优化的研究者可以直接参考其嵌入混合策略。原文
12:41arXiv cs.AI@Blake Bullwinkel, Eugenia Kim, Amanda Minnich, Mark Russinovich精选本文提出AdvGRPO框架,解决了GRPO在攻防协同训练中不稳定的问题。通过密集多通道奖励和分离优势归一化,使攻击者和防御者模型交替更新,从单轮攻击逐步过渡到多轮闭环攻击。实验表明,该方法能生成高效且可迁移的攻击,协同训练的防御者在安全基准上优于基线。这项工作为语言模型的安全对齐提供了新的自适应红队方法。论文红队测试GRPO攻防协同安全对齐强化学习推荐理由:做AI安全对齐的团队终于有了一个稳定的GRPO攻防协同训练方案,能同时提升攻击发现能力和防御鲁棒性,建议做红队测试的开发者直接参考。原文
10:35arXiv cs.AI@Subramanyam Sahoo精选大语言模型常会“不懂装懂”,对超出知识边界的问题给出流畅但错误的回答。研究者提出结构化无知证书(SICs),要求模型明确输出缺失的领域交集、所需概念和检索查询,而非直接生成答案。团队构建了7347条跨领域未知-未知数据集,并用GRPO微调14B模型,使SIC输出JSON有效率达99.46%,概念特异性评分0.967。该方法证明,让模型显式表达认知边界是可学习且可衡量的能力,对提升AI可靠性和安全性有重要意义。论文推理模型幻觉缓解结构化输出未知-未知GRPO推荐理由:这项研究直接戳中了LLM的“幻觉”痛点——用结构化输出让模型承认无知,做AI安全或可靠性研究的团队值得关注,尤其适合需要高可信度输出的应用场景。原文
10:47arXiv cs.AI@Rongzhi Zhang, Rui Feng, Zhihan Zhang, Jingfeng Yang, Qingyu Yin, Xin Liu, Zixuan Zhang, Priyanka Nigam, Bing Yin, Tuo Zhao, Chao Zhang精选现有基于评分标准的强化学习(RL)方法将查询分布视为固定,导致开放查询产生模糊评分标准,而狭窄查询又引入无法验证的参考,使训练失去奖励信号。QUBRIC框架通过教师提取关键点将开放查询重写为可评估的场景问题,并利用对比评分生成和可学习性过滤,保留信息丰富的查询-评分对用于GRPO训练。在ArenaHard上,QUBRIC相比SFT基线提升5.5分,且仅用指令跟随数据训练后,在三个未见基准(法律、道德、叙事推理)上平均提升6.3分。这表明联合设计查询与评分标准可使基于评分标准的RL成为严格可验证任务之外的有效补充。论文强化学习评分标准查询设计GRPO推理模型推荐理由:QUBRIC解决了RL在非可验证任务中的核心瓶颈——查询与评分标准不匹配,做RL训练或AI对齐的团队可以直接参考其方法,提升模型在开放推理任务上的表现。原文
10:43arXiv cs.LG@Hanjiang Hu, Yiyuan Pan, Jiaxing Li, Xusheng Luo, Alexander Robey, Na Li, Yebin Wang, Changliu Liu精选VLESA 是一个面向具身 AI 的安全框架,通过分析第一人称视频实时预测危险动作并触发干预。它解决了“意图依赖的安全”问题——相同动作在不同情境下可能安全或危险。研究团队引入了配对第一人称帧与目标条件安全标注的数据集,并训练了基于 GRPO 的目标条件安全 Q 过滤器,无需重新训练即可评估动作安全性。在 ASIMOV-2.0 基准上,VLESA 在精确帧上实现了更高的干预准确率,GRPO 训练的 Q 过滤器通过目标条件约束解码将动作安全性提升了超过 41 个百分点。代码已开源。论文具身智能安全监控视觉语言模型GRPO开源/仓库推荐理由:做具身 AI 安全或人机协作的团队,VLESA 提供了一个可落地的实时安全监控方案,能根据上下文判断危险动作,建议直接看论文和代码。原文
11:58arXiv cs.AI@Seojeong Park, Jiho Choi, Junyong Kang, Seonho Lee, Jaeyo Shin, Hyunjung Shim精选研究发现多模态大语言模型作为自动评估者时存在“感知判断偏见”:当视觉证据与文本线索冲突时,模型倾向于奖励看似合理但感知错误的回答。研究者通过受控视觉扰动构建了 Perceptually Perturbed Judgment 数据集,并开发了结合 GRPO 奖励与批量排序目标的统一训练框架。该方法无需显式成对标签,即可实现全局一致性排序。实验表明,该方法显著提升了多模态评估者的感知保真度、排序一致性与人类评价对齐度。这项工作为训练感知可靠、可解释且鲁棒的多模态评估者提供了可扩展路径。论文多模态大模型评测偏见感知扰动奖励建模GRPO推荐理由:做多模态模型评测的团队终于有了对抗感知偏见的方法——Perceptual Perturbation 框架能直接提升评估者的视觉可靠性,建议做 MLLM 评测基准的开发者点开看看实验细节。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
10:34IT之家(博客/媒体)精选76°英伟达研究团队发布开源框架 Polar,通过在不改动现有智能体框架(如 Codex、Claude Code、Qwen Code)的前提下接入 GRPO 强化学习训练,大幅提升代码智能体在 SWE-Bench 上的表现。Polar 将智能体与模型的接口作为训练边界,而非重写执行框架,从而保留原生工具调用和上下文组织能力。实验显示,基于 Qwen3.5-4B 模型,Codex 的 pass@1 分数从 3.8% 提升至 26.4%,涨幅达 594.74%。同时,Polar 通过 prefix_merging 等技术将训练效率提升约 5.39 倍,GPU 利用率从 20.4% 升至 87.7%。该框架解决了智能体强化学习从单步任务转向长流程任务时的接入难题,为代码仓库修改、浏览器操作等复杂场景提供了高效训练方案。AI产品英伟达PolarGRPO代码智能体强化学习1 个信源在谈推荐理由:做代码智能体训练的团队终于有了一个不用重写框架就能接入强化学习的方案——Polar 让 Codex 跑分暴涨近 6 倍,建议搞 AI 编程的开发者直接看论文和代码。原文
10:58arXiv cs.AI@Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit Agrawal精选72°当前大语言模型的后训练通常优化单一标量奖励,导致输出分布低熵,难以在推理时搜索(如AlphaEvolve)中展现多样性。本文提出向量策略优化(VPO),一种显式训练模型适应多样化下游奖励函数并产生多样化解决方案的强化学习算法。VPO利用实践中奖励常为向量形式(如代码生成的逐测试用例正确性、多种用户画像或奖励模型),作为GRPO优势估计器的即插即用替代,训练模型输出一组解,每个解专门针对向量奖励空间中的不同权衡。在四个任务上,VPO在测试时搜索(如pass@k和best@k)中匹配或超越最强标量RL基线,且差距随搜索预算增大而扩大。对于进化搜索,VPO模型能解决GRPO模型完全无法解决的问题。论文强化学习推理时搜索多样性训练VPOGRPO推荐理由:VPO解决了LLM在推理时搜索中缺乏多样性的痛点,做强化学习后训练或推理时搜索的团队值得关注,它直接替换GRPO就能提升搜索效果。原文
10:22arXiv cs.LG@Xixiang He, Qiyao Sun, Ao Cheng, Xingming Li, Xuanyu Ji, Hailun Lu, Runke Huang, Qingyong Hu精选72°Group Relative Policy Optimization (GRPO) 在提升大语言模型推理能力方面表现出色,但存在优势坍塌问题:当组内奖励同质化(如全对或全错)时,优势趋近于零,导致梯度消失。研究者首次提出诊断指标 Advantage Collapse Rate (ACR),量化训练批次中梯度无效的比例,并在0.5B至14B参数模型上验证了ACR对训练停滞和最终性能的强预测性。为缓解该问题,他们提出 Adaptive Virtual Sample Policy Optimization (AVSPO),通过实时ACR监控注入虚拟奖励样本,无需额外模型推理即可从同质组中学习。AVSPO将优势坍塌减少58-63%,在所有模型规模上带来4-6个百分点的准确率提升,且保持了域外泛化能力。代码和数据集已开源。论文GRPO优势坍塌RLVR推理模型开源/仓库推荐理由:GRPO用户终于有了解决训练停滞的实用工具——AVSPO无需额外推理成本就能提升4-6个点准确率,做大模型RL训练的团队可以直接试。原文
09:46arXiv cs.AI@Yixu Wang, Yang Yao, Xin Wang, Yifeng Gao, Yan Teng, Xingjun Ma, Yingchun Wang精选论文指出当前大模型的安全对齐存在脆弱性:同一恶意意图换种措辞就可能绕过防护。作者提出“上下文不变性对齐”概念,要求模型行为基于底层意图而非表面形式。为此设计了锚定不变性正则化(AIR),将可验证提示作为锚点,仅对开放变体进行正则化,避免降低可靠变体的性能。在安全、道德推理和数学任务上,AIR将分布内准确率提升12.71%,分布外一致性提升33.49%,使安全约束对对抗性措辞更鲁棒。该方法可作为插件与GRPO等偏好优化方法结合使用。论文大模型安全对齐上下文不变性正则化GRPO推荐理由:大模型安全对齐的脆弱性一直是部署痛点,AIR用巧妙的锚定策略解决了“一改措辞就破防”的问题,做安全对齐的团队可以直接集成到现有训练流程中。原文
11:42arXiv cs.AI@Junming Liu, Yuqi Li, Yifei Sun, Maonan Wang, Piotr Koniusz, Yirong Chen, Ding Wang精选视觉语言模型(VLM)在空间推理上仍存在脆弱性,即使能正确回答原始输入,也可能在变换后失败。为此,研究者提出SAGE(Spatial Alignment via Geometric Evolution),一种自进化框架,通过几何和语言对偶操作强制VLM保持逻辑一致性。SAGE将一致性作为GRPO训练的辅助奖励,并动态调整操作池以聚焦最具信息量的信号。该方法模型无关、数据高效,可作为轻量后训练阶段应用于任何VLM。实验表明,SAGE在视频和空间推理基准上持续优于强基线,并提升了对未见数据的泛化能力。论文空间推理视觉语言模型自进化训练逻辑一致性GRPO推荐理由:空间推理是VLM的硬伤,SAGE用自进化训练解决了这个痛点,做多模态模型训练或空间理解应用的团队可以直接参考方法。原文
10:39arXiv cs.LG@Vaidehi Bagaria, Nikshep Grampurohit, Pulkit Verma精选该论文发现GRPO算法在VLA策略强化学习中,梯度计算占78%时间,而大部分计算浪费在策略已掌握的阶段。为此提出概率性分块掩码(PCM),通过成功-失败动作方差识别关键阶段,仅对少量分块进行梯度更新。PCM无需额外奖励模型,在LIBERO基准上保持相同成功率的同时,实现2.38倍加速、4.8倍梯度更新加速和60%峰值内存降低。论文强化学习VLA策略GRPO梯度加速机器人推荐理由:做VLA机器人强化学习的团队终于有了省算力的方案——PCM直接替换GRPO就能省60%内存、快2倍多,效果还不打折,建议做后训练优化的点开看看。原文
19:12arXiv: DeepSeek@Mingxiong Lin, Zhangquan Gong, Maowen Tang, Qian Li, Chuangchuang Wang, Jian Ma, Sutian Huang, Kai Tang, Haonan Lu精选论文发现GRPO算法存在两个效率问题:固定KL系数限制模型探索,均匀采样忽略中等难度题目的信息价值。提出FG-ExPO方法,包含两个轻量组件:基于准确率的自适应KL缩放(AKL)动态调整约束强度,以及高斯课程采样(GCS)聚焦模型学习前沿。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上测试,AIME 2025 pass@32从63.33%提升至76.67%,8B模型平均提升2.66%。该方法在固定推理预算下扩大了模型有效探索空间。论文GRPO强化学习数学推理课程学习自适应KL推荐理由:做LLM数学推理RL训练的团队,GRPO的KL系数和采样策略可以照搬这个改进,AIME 2025上13个点的提升值得一试。原文