10:34IT之家(博客/媒体)精选76°英伟达研究团队发布开源框架 Polar,通过在不改动现有智能体框架(如 Codex、Claude Code、Qwen Code)的前提下接入 GRPO 强化学习训练,大幅提升代码智能体在 SWE-Bench 上的表现。Polar 将智能体与模型的接口作为训练边界,而非重写执行框架,从而保留原生工具调用和上下文组织能力。实验显示,基于 Qwen3.5-4B 模型,Codex 的 pass@1 分数从 3.8% 提升至 26.4%,涨幅达 594.74%。同时,Polar 通过 prefix_merging 等技术将训练效率提升约 5.39 倍,GPU 利用率从 20.4% 升至 87.7%。该框架解决了智能体强化学习从单步任务转向长流程任务时的接入难题,为代码仓库修改、浏览器操作等复杂场景提供了高效训练方案。AI产品英伟达PolarGRPO代码智能体强化学习1 个信源在谈推荐理由:做代码智能体训练的团队终于有了一个不用重写框架就能接入强化学习的方案——Polar 让 Codex 跑分暴涨近 6 倍,建议搞 AI 编程的开发者直接看论文和代码。原文
01:12marktechpost@Asif Razzaq76°NVIDIA 研究人员推出 Polar,一个 token 忠实展开框架,用于通过强化学习训练语言智能体,无需修改其智能体框架。Polar 在框架和推理服务器之间放置模型 API 代理,捕获 token 级交互并重建训练器就绪轨迹。基于 Qwen3.5-4B 基础模型使用 GRPO,Polar 在 Codex 框架下将 SWE-Bench Verified pass@1 提升 22.6 个百分点,在 Claude Code 下提升 4.8 个百分点,在 Pi 下提升 6.2 个百分点。该框架已注册为 NeMo Gym 环境,并在 ProRL Agent Server 仓库中发布。AI模型NVIDIAPolarGRPO代码智能体强化学习4 个信源在谈推荐理由:Polar 解决了 RL 训练智能体时需修改框架的痛点,做代码智能体或 RL 训练的开发者可以直接集成,无需改动现有工具链,值得一试。原文
08:00IT之家(博客/媒体)83°DeepSeek 已内部组建全新 Harness 团队,主攻代码智能体产品,直接对标 Anthropic 的 Claude Code。该团队由资深研究员陈德里证实,将专注研发 DeepSeek Code Harness,旨在将前沿模型能力转化为领先的 Agent 产品。目前开放 Harness 产品经理和研发工程师两个关键岗位,工作地点限北京。此举标志着 DeepSeek 正式进入代码智能体赛道,与 Claude Code 等产品展开竞争。AI产品代码智能体DeepSeekClaude CodeAgent 产品编程助手10 个信源在谈推荐理由:代码智能体是 AI 编程的下一个战场,DeepSeek 直接对标 Claude Code 组建 Harness 团队,做 AI 编程工具或 Agent 产品的开发者值得关注其后续动作。原文