英伟达开源框架Polar：助力代码智能体训练，SWE-Bench分数显著提升-业界动态-ITBear科技资讯

英伟达研究团队近日推出开源框架Polar，为代码智能体训练开辟新路径。该框架允许Codex、Claude Code、Qwen Code等现有智能体框架在不改变原有工具调用方式的前提下，接入GRPO（广义相对策略优化）训练体系，有效解决了传统强化学习环境适配难题。

GRPO作为面向强化学习的优化方法，通过奖励信号动态调整模型策略，使智能体在多步决策任务中逐步优化行为模式。在代码生成领域，该技术可帮助模型在真实工具调用和代码补丁提交过程中持续改进，特别适用于代码仓库修改、浏览器自动化操作等复杂长流程任务。这类任务通常依赖现成执行框架，涉及多轮工具调用、上下文管理和子智能体协作，传统方法难以直接适配强化学习环境接口。

Polar框架的创新之处在于其非侵入式设计。研究团队选择在模型API边界部署智能体，而非重构现有执行框架。这种设计避免了将智能体运行外壳（如Codex CLI、Claude Code等）改写为标准环境接口（env.init/env.step/env.reset）的高成本操作，同时完整保留了原生执行细节。实验数据显示，基于Qwen3.5-4B模型的测试中，四种代码执行框架在接入Polar后，SWE-Bench Verified的pass@1指标均获得显著提升：Codex从3.8%跃升至26.4%，Claude Code从29.8%增至34.6%，Qwen Code从34.6%提升至35.2%，Pi框架则从34.2%增长到40.4%。

系统架构方面，Polar采用双组件设计：rollout server负责任务调度、状态管理和回调处理，gateway node则管理执行全生命周期，包括运行时初始化、框架准备、轨迹构建和资源回收。通过将初始化、运行和后处理流程拆分为独立工作池，并引入READY缓冲区机制，系统实现了运行时预热与评测预热的并行执行，有效减少了长尾任务对GPU训练的阻塞。在效率优化实验中，prefix_merging技术使三个训练步骤的更新次数从1185次降至218次，墙钟时间缩短至35.2分钟（原189.5分钟），rollout GPU利用率从20.4%提升至87.7%。

该框架兼容Anthropic、OpenAI和Google风格的API请求，在请求转发过程中自动记录提示词、采样Token、对数概率和响应内容，并将这些数据重构为训练器可用的轨迹格式。这种设计既保持了与现有智能体框架的兼容性，又为强化学习训练提供了完整的数据流支持，为代码生成领域的大规模模型优化提供了新的技术范式。

REDMI K90至尊版来袭：狂暴双芯配风冷，首销优惠后2799元起售

2026-07-01

消息称小米、Oppo、Vivo等再次下调2026年手机出货目标，最高降30%

2026-07-01

小米集团官方辟谣阵地“小米辟谣”正式上线

2026-07-01

因造谣抹黑小米汽车，某品牌汽车销售公司被罚款40万元

2026-07-01

道格S300 Pro来袭：大电池强性能四摄全，LCD党新选择但价格劝退？

今天分享的手机是道格S300 Pro，和前两天分享的Bigme新机相比，该机有很多明显的优势：比如国内有旗舰店方便选购，16GB超大运存和11000毫安时电池，还有2亿超清四摄组合和6.78英寸LCD高刷护眼…

2026-07-01

小米辟谣账号正式上线携手法务部共筑清朗网络与品牌权益防线

近期的一条博文是帮助车主抵御诋毁，博文称自2025年9月26日发布小米车主遭网络攻击专项援助信息收集以来，截至今年5月27日，已有21,983人参与，3,201人提供相关证据信息，目前已帮助73位车主向法院…

2026-07-01

联想摩托罗拉发布moto tag 2蓝牙追踪器，续航超500天还新增moto buds 2 plus新配色

IT之家 6 月 30 日消息，联想旗下摩托罗拉今日正式推出 moto tag 2 蓝牙追踪器，售价 29.99 美元（IT之家注：现汇率约合204.1 元人民币）。据介绍，moto tag 2 是联想旗…

2026-07-01

石头科技新专利落地！新型扫地机器人干湿垃圾同清，开启全场景清洁新篇

这款产品突破传统清洁设备的局限，通过吸入通道的革新设计，实现了干湿垃圾同步处理的功能，为家庭清洁场景提供了更高效的解决方案。针对传统设备难以应对液体垃圾的痛点，石头科技研发团队在吸入结构上取得关键突破。据…

2026-07-01

石头科技新型扫地机器人专利落地，干湿垃圾同扫，清洁效率大提升

石头科技（688169）新型扫地机器人专利（CN202520914292.3）于2026年6月30日获批，突破传统清洁设备局限，支持干湿垃圾同步处理。节省清洁时间：新设计可减少约70%清洁时间。行业前景技…

2026-07-01

石头科技再获突破！新专利扫地机器人干湿垃圾同步处理，引领清洁新潮流

传统扫地机器人在处理液体垃圾时往往显得力不从心，然而石头科技的研发团队针对这一痛点进行了深入研究，成功开发出一种特殊的吸入通道设计。石头科技通过持续的技术迭代与专利布局，正在重塑行业竞争格局，为传统家电企业…

2026-07-01