ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

英伟达开源框架Polar:助力代码智能体训练,SWE-Bench分数显著提升

时间:2026-05-29 18:42:52来源:快讯编辑:快讯

英伟达研究团队近日推出开源框架Polar,为代码智能体训练开辟新路径。该框架允许Codex、Claude Code、Qwen Code等现有智能体框架在不改变原有工具调用方式的前提下,接入GRPO(广义相对策略优化)训练体系,有效解决了传统强化学习环境适配难题。

GRPO作为面向强化学习的优化方法,通过奖励信号动态调整模型策略,使智能体在多步决策任务中逐步优化行为模式。在代码生成领域,该技术可帮助模型在真实工具调用和代码补丁提交过程中持续改进,特别适用于代码仓库修改、浏览器自动化操作等复杂长流程任务。这类任务通常依赖现成执行框架,涉及多轮工具调用、上下文管理和子智能体协作,传统方法难以直接适配强化学习环境接口。

Polar框架的创新之处在于其非侵入式设计。研究团队选择在模型API边界部署智能体,而非重构现有执行框架。这种设计避免了将智能体运行外壳(如Codex CLI、Claude Code等)改写为标准环境接口(env.init/env.step/env.reset)的高成本操作,同时完整保留了原生执行细节。实验数据显示,基于Qwen3.5-4B模型的测试中,四种代码执行框架在接入Polar后,SWE-Bench Verified的pass@1指标均获得显著提升:Codex从3.8%跃升至26.4%,Claude Code从29.8%增至34.6%,Qwen Code从34.6%提升至35.2%,Pi框架则从34.2%增长到40.4%。

系统架构方面,Polar采用双组件设计:rollout server负责任务调度、状态管理和回调处理,gateway node则管理执行全生命周期,包括运行时初始化、框架准备、轨迹构建和资源回收。通过将初始化、运行和后处理流程拆分为独立工作池,并引入READY缓冲区机制,系统实现了运行时预热与评测预热的并行执行,有效减少了长尾任务对GPU训练的阻塞。在效率优化实验中,prefix_merging技术使三个训练步骤的更新次数从1185次降至218次,墙钟时间缩短至35.2分钟(原189.5分钟),rollout GPU利用率从20.4%提升至87.7%。

该框架兼容Anthropic、OpenAI和Google风格的API请求,在请求转发过程中自动记录提示词、采样Token、对数概率和响应内容,并将这些数据重构为训练器可用的轨迹格式。这种设计既保持了与现有智能体框架的兼容性,又为强化学习训练提供了完整的数据流支持,为代码生成领域的大规模模型优化提供了新的技术范式。

更多热门内容
Grok Build 0.1编程实战表现亮眼,成本低于竞品获马斯克盛赞
月 29 日消息,AI 编程智能体 IDE 工具 Kilo Code 今天在 X 平台发布系列图文,分享了 Grok Build 0.1实战开发报告,称构建交付服务过程零工具调用失败,且成本低于 GPT-5…

2026-05-29

iOS 27前瞻:苹果重塑Siri,多模态交互与AI网页搜索功能齐升级
苹果公司“彻底重做”Siri,将其从一款语音助手升级为具备多模态交互能力的AI平台。 核心内容包括:重新设计的Siri界面、引入谷歌Gemini技术的全新底层模型、AI驱动的网页搜索功能,以及一款对标Chat…

2026-05-29

Blackwell架构引领新潮,AI大模型密集发布,能力跃迁与商业变革双加速
花旗研究把"首批基于Blackwell架构训练的模型"列为近期AI竞争中最关键的技术催化剂,逻辑很直接:目前所有排在前沿模型榜单上的产品,包括OpenAI GPT-5.5(花旗AI智能指数60)、谷歌Gem…

2026-05-29

亚马逊关停内部AI排行榜“Kirorank”:纠偏形式化倾向,回归技术实用价值
【环球网科技综合报道】5月29日消息,据《金融时报》报道,亚马逊公司宣布关闭内部 AI 评分排行榜 “Kirorank”,针对部分员工为追求排名、过度消耗算力资源的现象及时纠偏,明确倡导人工智能技术回归实用…

2026-05-29

国产AI芯片迎里程碑!9款芯片通过国家安全可靠测评 昇腾等领衔
2026年5月26日,中国信息安全测评中心与国家保密科技测评中心联合发布《安全可靠测评结果公告(2026年第2号)》,首次将人工智能训练推理芯片纳入安全可靠测评体系。 随着大模型和AI应用在政务、国防、金融…

2026-05-29

解锁教育新玩法!这些互联网新词带你领略学习新体验
指的是教学从来不止局限于方寸教室,走出课堂、奔赴户外,在广阔天地间开展社会实践。对于课堂而言,教师应该保留一些“无目的时间”“无标准答案的问题”以及“无考核压力的角落”,让漫风草思维自然发生。晨读不再是任务…

2026-05-29

Grok Build 0.1 编程实战表现出色,成本低于竞品获马斯克盛赞“物超所值”
月 29 日消息,AI 编程智能体 IDE 工具 Kilo Code 今天在 X 平台发布系列图文,分享了 Grok Build 0.1实战开发报告,称构建交付服务过程零工具调用失败,且成本低于 GPT-5…

2026-05-29

马斯克SpaceX弃JAX选C语言新堆栈 大模型训练提速 硬件算力同步扩张
马斯克还透露,SpaceX正在与其他公司洽谈类似的算力租赁合作,轨道数据中心也在规划中。 更关键的是,和A社抢算力的竞争者恰恰是老马自家人,Grok系列需要训练,Tesla的自动驾驶业务对算力的胃口也在快速…

2026-05-29

Anthropic估值达9650亿美元超OpenAI,数周内将推新型AI模型
据日本共同社5月29日报道,美国人工智能企业Anthropic于28日宣布,其企业估值已达到9650亿美元(约154万亿日元),实现对OpenAI的超越,反映全球高性能AI普及推动的爆发式增长。 公司同时表…

2026-05-29

杜比携手小红书推出全景声功能,赋能创作者打造沉浸式视听新体验
2024年双方携手成功将杜比视界引入小红书,在此基础上,此次新增对杜比全景声的支持标志着杜比与小红书持续合作,并在以真实创作者驱动的社交媒体体验领域持续拓展的又一重要进展。通过将杜比视界与杜比全景声引入小红书…

2026-05-29