ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

编程AI里程碑!GPT-5.5无源码重构程序,开启编程能力新篇章

时间:2026-05-13 16:18:49来源:互联网编辑:快讯

在编程AI领域,一场突破性进展引发了广泛关注。一个名为ProgramBench的全新编程基准测试,此前让所有前沿AI模型集体折戟——200道编程难题,无一被完整攻克。然而,这一局面被最新发布的GPT-5.5打破,它成为首个在该基准测试中取得突破的模型,成功解出了第一道难题。

ProgramBench的测试难度远超传统编程基准。以往测试如SWE-bench或Humaneval,主要考察模型修复代码中的错误或补全函数的能力,相当于“开卷考试”或“半开卷考试”。而ProgramBench则要求模型从零开始重建程序:仅提供一个编译好的可执行文件和一份文档,不提供源代码,禁止反编译,也不允许联网查询。测试任务涵盖从简单的工具如jq、ripgrep,到复杂的系统如FFmpeg、SQLite和PHP编译器。

GPT-5.5的突破性表现体现在多个方面。在攻克首个任务——实现经典终端程序“cmatrix”的数字雨效果时,GPT-5.5展示了惊人的策略灵活性。其“high”版本使用C语言,通过10轮探索测试了40多种命令行参数组合,彻底摸清了原程序的行为模式,随后一次性写出完整代码,仅需5次微调即通过所有测试。而“xhigh”版本则选择Python,通过27步详细探索,覆盖了所有命令行路径,最终一气呵成完成实现。两个版本均以满分通过行为测试。

与GPT-5.5形成鲜明对比的是,其他模型在该测试中表现不佳。以Claude Opus 4.7为例,其“xhigh”版本在测试中消耗了10.74美元成本,调用API达178次,是GPT-5.5普通版成本的10倍,但最终仍有19个测试失败。失败原因包括对颜色解析的大小写敏感问题,以及无效颜色退出码设置错误。尽管Opus 4.7在处理缺失的ncurses头文件时展现了复杂的系统工程能力——通过检查动态库链接符号并手写头文件声明,但这一创新并未转化为更好的测试成绩。

测试数据进一步凸显了GPT-5.5的优势。在未开启高推理模式的“medium”版本中,GPT-5.5的成绩仅略优于Claude Sonnet 4.6。但切换到“xhigh”模式后,其性能实现质的飞跃:不仅成为首个解出题目的模型(通过率0.05%),还在26个任务中通过了超过95%的单元测试。在累积直方图分析中,GPT-5.5“xhigh”在平均分、中位数、≥90%通过率和≥50%通过率等所有指标上均全面领先对手。

这一突破揭示了推理算力在编程AI中的核心作用。ProgramBench的测试结果表明,同一模型在不同推理算力配置下,性能表现差异巨大。GPT-5.5从“medium”到“xhigh”的模式切换,相当于从“交白卷”到“断层碾压”的转变。这种性能跃升验证了推理算力与模型能力之间的非线性关系——智能水平不再是固定值,而是算力的函数。

目前,ProgramBench的200道测试题中仍有199道未被攻克,通过率仅为0.05%。这一超低通过率与SWE-bench等传统基准测试中AI模型高达88.7%的通过率形成鲜明对比,凸显了ProgramBench作为新一代编程基准的严格标准。随着推理算力的持续提升,编程AI正从“修复代码”向“创造程序”迈进,这一转变可能重新定义人工智能在软件开发领域的角色。

更多热门内容
智博会看点足 中国电信以AI为翼 驱动千行百业数智化升级新飞跃
基于星辰大模型的核心能力,中国电信已打造行业大模型110余个、智能体350余个,服务3.7万家行业客户,星辰工业互联网平台、星辰智慧教育平台与星辰智慧城市平台等在多个城市落地应用,让词元(Token)价值真正…

2026-06-04

ChatGPT与Codex强强联合:OpenAI产品升级,剑指企业级AI工作新入口
Codex 最初面向开发者,用于编程和工程任务;现在,OpenAI 准备把它推向更广泛的企业工作场景。 目前 ChatGPT 和 Codex 是两个产品,用户在不同工作场景下需要反复判断该用哪个工具。Ope…

2026-06-04

神州信息于宏志:AI时代金融软件变革,大模型与行业知识共塑新未来
他指出,当前金融软件行业正经历一场从“系统建设”到“智能运营”的根本性变革。 于宏志展望,金融软件的演进将经历三个阶段:从当前的数字化与智能化并存,到智能体软件的普及,最终走向具备自主进化能力的成熟形态。站…

2026-06-04

复旦系团队五年磨一剑!STI-WM模型首创时空一体架构 引领物理世界AGI新突破
在物理AI产业快速迭代的关键节点,深耕世界动作模型底层技术五年的复旦系科创企业眸深智能,正式推出STI-WM时空一体世界动作模型(SpatiotemporallyIntegrated World Mode…

2026-06-04

荣耀Robot Phone即将登场:AI助力影音创作 支持C-Log与LUTs功能
IT之家 6 月 3 日消息,博主 @旺仔百事通 发文,透露“全球首款机器人手机”荣耀 Robot Phone将于今年第三季度上市,该机主打影音创作,利用 AI 自动追踪主体、全自动运镜,提供大量预设模板,…

2026-06-04