NVIDIA 发布 Polar:跨 Codex、Claude Code 和 Qwen Code 的 GRPO 训练框架

NVIDIA Releases Polar, a Token-Faithful Rollout Framework for GRPO Training Across Codex, Claude Code, and Qwen Code

精选理由

Polar 解决了 RL 训练智能体时需修改框架的痛点,做代码智能体或 RL 训练的开发者可以直接集成,无需改动现有工具链,值得一试。

AI 摘要

NVIDIA 研究人员推出 Polar,一个 token 忠实展开框架,用于通过强化学习训练语言智能体,无需修改其智能体框架。Polar 在框架和推理服务器之间放置模型 API 代理,捕获 token 级交互并重建训练器就绪轨迹。基于 Qwen3.5-4B 基础模型使用 GRPO,Polar 在 Codex 框架下将 SWE-Bench Verified pass@1 提升 22.6 个百分点,在 Claude Code 下提升 4.8 个百分点,在 Pi 下提升 6.2 个百分点。该框架已注册为 NeMo Gym 环境,并在 ProRL Agent Server 仓库中发布。

AI 翻译 · 中文

NVIDIA 研究人员推出 Polar,一个 token 忠实展开框架,用于通过强化学习训练语言智能体,无需修改其智能体框架。Polar 在框架和推理服务器之间放置模型 API 代理,捕获 token 级交互并重建训练器就绪轨迹。基于 Qwen3.5-4B 基础模型使用 GRPO,Polar 在 Codex 框架下将 SWE-Bench Verified pass@1 提升 22.6 个百分点,在 Claude Code 下提升 4.8 个百分点,在 Pi 下提升 6.2 个百分点。该框架已注册为 NeMo Gym 环境,并在 ProRL Agent Server 仓库中发布。

marktechpostNVIDIA researchers have introduced Polar, a rollout framework that trains language agents using reinforcement learning without modifying their agent harnesses. Polar places a model API proxy between the harness and the i