NVIDIA 发布 Polar：跨 Codex、Claude Code 和 Qwen Code 的 GRPO 训练框架

精选理由

Polar 解决了 RL 训练智能体时需修改框架的痛点，做代码智能体或 RL 训练的开发者可以直接集成，无需改动现有工具链，值得一试。

AI 摘要

NVIDIA 研究人员推出 Polar，一个 token 忠实展开框架，用于通过强化学习训练语言智能体，无需修改其智能体框架。Polar 在框架和推理服务器之间放置模型 API 代理，捕获 token 级交互并重建训练器就绪轨迹。基于 Qwen3.5-4B 基础模型使用 GRPO，Polar 在 Codex 框架下将 SWE-Bench Verified pass@1 提升 22.6 个百分点，在 Claude Code 下提升 4.8 个百分点，在 Pi 下提升 6.2 个百分点。该框架已注册为 NeMo Gym 环境，并在 ProRL Agent Server 仓库中发布。

AI 翻译 · 中文

marktechpostNVIDIA researchers have introduced Polar, a rollout framework that trains language agents using reinforcement learning without modifying their agent harnesses. Polar places a model API proxy between the harness and the i…

IT之家05-28 02:14原文
NVIDIA AI05-29 00:37原文
阶跃星辰 Stepfun05-29 06:33原文
rohanpaul_ai05-28 23:20原文

阅读原文