英伟达开源框架Polar助力代码智能体训练，Qwen3.5-4B模型跑分显著提升-人工智能-ITBear科技资讯

英伟达研究团队近日推出开源框架Polar，为代码智能体训练领域带来突破性进展。该框架通过创新设计，成功将Codex、Claude Code、Qwen Code等主流智能体框架与GRPO（广义相对策略优化）训练方法无缝衔接，在保持原有工具调用模式和上下文管理机制不变的前提下，显著提升模型在复杂代码任务中的表现。

GRPO作为一种先进的强化学习优化技术，通过奖励信号动态调整模型策略，特别适用于需要多步决策的复杂任务。在代码智能体训练场景中，该技术能够引导模型在真实工具调用和代码补丁提交过程中持续优化行为模式。研究团队指出，当前智能体强化学习正从单一操作向长流程任务转型，代码仓库维护、浏览器自动化等复杂场景需要模型具备多轮调用、工具协同和上下文管理能力。

传统方法在整合这些执行框架时面临重大挑战——强制改造现有接口不仅接入成本高昂，更会导致关键训练信号丢失。Polar框架采用颠覆性设计理念，通过在模型API边界部署智能代理，避免对Codex CLI等运行外壳进行结构性修改。这种设计保留了Anthropic、OpenAI等平台请求风格的原生特性，同时实现训练数据的完整采集。

系统架构层面，Polar由rollout服务器和网关节点构成核心组件。前者负责任务调度、状态管理和回调处理，后者则管控整个执行生命周期，包括环境初始化、轨迹构建和资源回收。研究团队特别开发的独立工作池机制，通过READY缓冲区实现运行时预热与评测预热的并行处理，有效减少GPU训练等待时间。

实验数据显示，基于Qwen3.5-4B基础模型，Polar配合GRPO训练在SWE-Bench Verified基准测试中取得显著突破：Codex框架的pass@1指标从3.8%跃升至26.4%，提升幅度达594.74%；其他框架也有6%-18%的不同程度提升。效率优化方面，prefix_merging技术使训练步骤更新次数减少82%，墙钟时间缩短至原来的18%，GPU利用率从20.4%大幅提升至87.7%。

这项研究为智能体强化学习提供了全新范式，其创新性的接口设计理念和系统架构优化，为处理复杂执行框架与训练环境兼容性问题开辟了新路径。开源框架的发布预计将加速代码生成、自动化运维等领域的模型优化进程。