ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

英伟达开源框架Polar助力代码智能体训练,Qwen3.5-4B模型跑分显著提升

时间:2026-05-29 01:08:32来源:快讯编辑:快讯

英伟达研究团队近日推出开源框架Polar,为代码智能体训练领域带来突破性进展。该框架通过创新设计,成功将Codex、Claude Code、Qwen Code等主流智能体框架与GRPO(广义相对策略优化)训练方法无缝衔接,在保持原有工具调用模式和上下文管理机制不变的前提下,显著提升模型在复杂代码任务中的表现。

GRPO作为一种先进的强化学习优化技术,通过奖励信号动态调整模型策略,特别适用于需要多步决策的复杂任务。在代码智能体训练场景中,该技术能够引导模型在真实工具调用和代码补丁提交过程中持续优化行为模式。研究团队指出,当前智能体强化学习正从单一操作向长流程任务转型,代码仓库维护、浏览器自动化等复杂场景需要模型具备多轮调用、工具协同和上下文管理能力。

传统方法在整合这些执行框架时面临重大挑战——强制改造现有接口不仅接入成本高昂,更会导致关键训练信号丢失。Polar框架采用颠覆性设计理念,通过在模型API边界部署智能代理,避免对Codex CLI等运行外壳进行结构性修改。这种设计保留了Anthropic、OpenAI等平台请求风格的原生特性,同时实现训练数据的完整采集。

系统架构层面,Polar由rollout服务器和网关节点构成核心组件。前者负责任务调度、状态管理和回调处理,后者则管控整个执行生命周期,包括环境初始化、轨迹构建和资源回收。研究团队特别开发的独立工作池机制,通过READY缓冲区实现运行时预热与评测预热的并行处理,有效减少GPU训练等待时间。

实验数据显示,基于Qwen3.5-4B基础模型,Polar配合GRPO训练在SWE-Bench Verified基准测试中取得显著突破:Codex框架的pass@1指标从3.8%跃升至26.4%,提升幅度达594.74%;其他框架也有6%-18%的不同程度提升。效率优化方面,prefix_merging技术使训练步骤更新次数减少82%,墙钟时间缩短至原来的18%,GPU利用率从20.4%大幅提升至87.7%。

这项研究为智能体强化学习提供了全新范式,其创新性的接口设计理念和系统架构优化,为处理复杂执行框架与训练环境兼容性问题开辟了新路径。开源框架的发布预计将加速代码生成、自动化运维等领域的模型优化进程。

更多热门内容
鲲鹏昇腾开发者大会聚焦计算模组,新品发布与生态共建共启AI算力新未来
会上,华为计算产品线技术专家从网络硬件、存储产品、软件生态三方面解读计算模组关键技术与产品优势。 华为计算产品线网卡技术专家曹水在《计算网络模组产品竞争力解读》中,介绍新一代AI网卡、标准网卡与DPU的技术…

2026-05-29

从5G到6G:新一代通信网迭代升级,织密数字底座赋能千行百业转型
全国5G基站总数达495.8万个,每3个手机用户就有2人使用5G网络; 全国光缆线路总长7499万公里,筑牢全域高速网络底座;5G-A网络已覆盖全国330座城市,规模化商用全面铺开; 86个城市的168…

2026-05-29

开源鸿蒙:代码规模破亿行,迈向产业规模化落地全新里程碑
章晓峰透露,除OpenHarmonyPMC外,统一互联PMC、跨平台框架PMC、具身智能PMC已相继启动筹备与建设,进一步拓展开源鸿蒙在设备互联、应用生态、机器人与AI融合等方向的技术布局。 章晓峰表示…

2026-05-29

AI工厂功耗激增:电网挑战与芯片液冷技术带来的水资源消耗新解
在这组四篇系列文章中,我们将探讨TeraWulf站点的快速建设进度、GPU功耗的大幅跃升如何决定数据中心设计变革、它们对电网和水资源使用的影响,以及传统工业区向AI工厂转型的全景。 当数据中心运营商和企业试…

2026-05-29

VERTU再推奢华折叠屏ALPHAFOLD,AI助手加持,售价39800元起瞄准高端市场
品牌将产品核心押注在人工智能功能上,宣称该机内置一款专属智能助手,并以知名奢侈服饰及配饰品牌爱马仕(Hermes)命名。与目前主流手机中的 AI助手不同,Hermes 被设计为具备任务拆解、跨应用协同、长期…

2026-05-29

2026拍照手机怎么选?荣耀600系列凭创新影像技术登顶前十榜单
该系列包含荣耀600超级版和荣耀600 Pro两款机型,在影像系统上带来了多项行业首创技术,重新定义了中端机的拍摄体验。对比普通2K Live,其分辨率提升了整整四倍,让动态影像首次达到了媲美静态照片的质感。…

2026-05-28