10:34IT之家(博客/媒体)精选76°英伟达研究团队发布开源框架 Polar,通过在不改动现有智能体框架(如 Codex、Claude Code、Qwen Code)的前提下接入 GRPO 强化学习训练,大幅提升代码智能体在 SWE-Bench 上的表现。Polar 将智能体与模型的接口作为训练边界,而非重写执行框架,从而保留原生工具调用和上下文组织能力。实验显示,基于 Qwen3.5-4B 模型,Codex 的 pass@1 分数从 3.8% 提升至 26.4%,涨幅达 594.74%。同时,Polar 通过 prefix_merging 等技术将训练效率提升约 5.39 倍,GPU 利用率从 20.4% 升至 87.7%。该框架解决了智能体强化学习从单步任务转向长流程任务时的接入难题,为代码仓库修改、浏览器操作等复杂场景提供了高效训练方案。AI产品英伟达PolarGRPO代码智能体强化学习1 个信源在谈推荐理由:做代码智能体训练的团队终于有了一个不用重写框架就能接入强化学习的方案——Polar 让 Codex 跑分暴涨近 6 倍,建议搞 AI 编程的开发者直接看论文和代码。原文
01:12marktechpost@Asif Razzaq76°NVIDIA 研究人员推出 Polar,一个 token 忠实展开框架,用于通过强化学习训练语言智能体,无需修改其智能体框架。Polar 在框架和推理服务器之间放置模型 API 代理,捕获 token 级交互并重建训练器就绪轨迹。基于 Qwen3.5-4B 基础模型使用 GRPO,Polar 在 Codex 框架下将 SWE-Bench Verified pass@1 提升 22.6 个百分点,在 Claude Code 下提升 4.8 个百分点,在 Pi 下提升 6.2 个百分点。该框架已注册为 NeMo Gym 环境,并在 ProRL Agent Server 仓库中发布。AI模型NVIDIAPolarGRPO代码智能体强化学习4 个信源在谈推荐理由:Polar 解决了 RL 训练智能体时需修改框架的痛点,做代码智能体或 RL 训练的开发者可以直接集成,无需改动现有工具链,值得一试。原文
16:35marktechpost@Sana Hassan本文是一篇技术教程,详细介绍了如何使用 TuringEnterprises/Open-MM-RL 数据集构建完整的多模态强化学习与可验证奖励(RLVR)管线。教程涵盖数据集加载、模式检查、领域分析、问题长度与答案类型统计、图像分布可视化等预处理步骤。还构建了轻量级奖励函数,支持精确匹配与语义评分,并演示了 GRPO 导出流程。该管线为多模态推理任务提供了可复现的实践框架,适合研究者和开发者快速上手。论文多模态强化学习RLVRGRPOOpen-MM-RL推荐理由:多模态 RLVR 是当前强化学习与视觉语言结合的热点方向,这篇教程从数据集到奖励函数再到导出一步到位,做多模态推理或 RL 研究的团队可以直接照着搭,省去自己踩坑的时间。原文