英伟达开源 Polar 框架，Codex 跑分暴涨 594.74%

精选理由

做代码智能体训练的团队终于有了一个不用重写框架就能接入强化学习的方案——Polar 让 Codex 跑分暴涨近 6 倍，建议搞 AI 编程的开发者直接看论文和代码。

AI 摘要

英伟达研究团队发布开源框架 Polar，通过在不改动现有智能体框架（如 Codex、Claude Code、Qwen Code）的前提下接入 GRPO 强化学习训练，大幅提升代码智能体在 SWE-Bench 上的表现。Polar 将智能体与模型的接口作为训练边界，而非重写执行框架，从而保留原生工具调用和上下文组织能力。实验显示，基于 Qwen3.5-4B 模型，Codex 的 pass@1 分数从 3.8% 提升至 26.4%，涨幅达 594.74%。同时，Polar 通过 prefix_merging 等技术将训练效率提升约 5.39 倍，GPU 利用率从 20.4% 升至 87.7%。该框架解决了智能体强化学习从单步任务转向长流程任务时的接入难题，为代码仓库修改、浏览器操作等复杂场景提供了高效训练方案。

AI 翻译 · 中文

IT之家IT之家 5 月 28 日消息，英伟达研究团队本周发布开源框架 Polar，在不破坏原有工具调用、上下文组织和补丁提交方式的前提下，让 Codex、Claude Code、Qwen Code 等现有智能体框架接入 GRPO（广义相对策略优化）训练。 IT之家注：GRPO 是一种面向强化学习训练的优化方法，会依据奖励信号调整模型策略，让模型在多步决策任务里学会更优动作。本文里，GRPO 主要用于代码智能体训练，让模型在真实工具调用和补丁…

marktechpost05-27 17:09原文

阅读原文