GPT-5.5全球首破！0源码盲写程序，编程AI进入新纪元-业界动态-ITBear科技资讯

「地狱级」编程难题，终于被AI拿下了！

今天，在一个所有前沿AI交白卷的基准ProgramBench上，GPT-5.5首关告破！

两种不同编程语言C和Python，GPT-5.5 xhigh完全碾压Opus 4.7 xhigh。

就在几天前，meta联手斯坦福、哈佛祭出了这个ProgramBench的全新编程基准：

200道题，所有前沿AI模型的通过率——0%。

没有一个模型，能完整解出哪怕一道。如今，GPT-5.5成为了首个破例者！

编程AI「终极考试」，从0重建程序

ProgramBench到底有多难？

传统编程基准，不论是SWE-bench，还是Humaneval，本质上是「修bug」或「补函数」。

给模型一个已有代码库，告诉它哪里坏了，让它修bug。

这是开卷考试，甚至是半开卷，ProgramBench则完全不同。

它给一个编译好的可执行文件和一份文档，然后说：从0开始，把这个程序重写出来。

不给源码，不许反编译，不许联网。

200个任务，从小工具jq、ripgrep，到重量级的FFmpeg、SQLite、PHP编译器。

OpenAI研究员Noam Brown此前曾表示，「是时候淘汰GQPA这类评估方式，引入一套全新的了」。

刚发布之初，所有刷榜的AI几乎全挂，这次，GPT-5.5终于扳回了一局。

GPT-5.5首破纪录：同一题，C和Python两种解法

GPT-5.5攻克的第一个任务是——cmatrix，一个经典的终端「黑客帝国」数字雨效果程序。

让研究人员惊讶的是，GPT-5.5的high和xhigh两个推理级别，选择了完全不同的语言来解决同一道题。

high版本用C语言，xhigh版本用Python。

最终结果，两个都通过了全部行为测试。

GPT-5.5 high的策略堪称教科书级别：先用10轮探索测试了40多种flag组合，彻底摸清了原程序的CLI行为。

然后一次性写出完整的C语言实现，仅用5次微调修补就搞定。

GPT-5.5 xhigh更彻底，27步探索，把每一条CLI路径都摸了个遍，然后一气呵成写出完整的Python实现。

关键数字来了。

未开高推理模式的GPT-5.5（medium），成绩勉强比Claude Sonnet 4.6好一点。

但一旦切到xhigh模式，性能直接起飞。

不仅首次解出一道题（通过率0.05%），还创下了「几乎解出」任务的新纪录：26个任务通过了95%以上的单元测试。

更值得注意的是，GPT-5.5 xhigh在完整的累积直方图上全程碾压所有对手。

无论你选什么指标，平均分、中位数、≥90%通过率、≥50%通过率，它都是第一。

178次调用，Opus 4.7栽在两个bug上

对比之下，Claude Opus 4.7 xhigh的表现令人唏嘘。

花费$10.74，调了178次API，是GPT-5.5普通版$1.04、17次调用的10倍。

结果，19个测试失败，全场最差。

Opus 4.7的失败原因出人意料地简单：

Bug 1：颜色解析大小写敏感。

代码用了strcmp()而不是strcasecmp()。输入「GREEN」「Red」「BLUE」全部被判无效。

一个函数调用的差异，直接导致11个测试失败。

178步探索里，Opus从来没有测试过大写或混合大小写的颜色输入，它只试了小写和一个无效颜色「purple」。

Bug 2：无效颜色的退出码写错了。

原程序遇到无效颜色返回exit(0)，Opus写成了exit(1)。

讽刺的是，Opus在探索阶段明明观察到了原程序的行为——./executable -C purple; echo "exit=$?" 输出的是exit=0。但在测试自己的实现时，却没有发现这个差异。

8个测试失败。

不过，Opus 4.7有一个亮点值得一提：它在处理缺失的ncurses头文件时展现了惊人的系统工程能力。

其他三个模型发现ncurses.h缺失后，直接改用ANSI转义序列。

Opus 4.7却花了约20步深入调查，用ldconfig -p发现了运行时.so文件，用nm -D检查导出符号，然后手写了一份106行的头文件声明，直接链接动态库。

这是真正的创意工程，但并没有带来更好的成绩。

还有199题未解

ProgramBench的出现，标志着编程基准进入了一个新阶段。

SWE-bench的通过率已经被卷到了88.7%。GPQA上AI已经超过了大多数PhD。

这些eval正在以惊人的速度「融化」，分数越来越高，区分度越来越低。

而ProgramBench，200道题，至今只有1道被解出，通过率：0.05%。

更重要的是，这次破纪录揭示了一个关键趋势：「推理算力」正在成为编程AI能力的核心变量。

GPT-5.5在默认推理模式下表现平平，但高推理模式直接改变了质的飞跃。

这意味着，不是模型不够聪明，而是之前给它「思考」的时间不够。

ProgramBench的200道题里，还有199道在等着。

从零到一，不只是起点

回顾AI发展史上的每一次「首破零」时刻——

AlphaGo首次击败职业棋手、GPT-4首次通过律师资格考试、o1首次在数学奥赛题上拿分。

「从零到一」从来不是线性进步的起点，而是指数爆发的信号弹。

Noam Brown提出的推理算力Scaling Law，在ProgramBench上得到了迄今为止最直观的验证：

同一个GPT-5.5底座，medium模式几乎交白卷，high模式满分通关，xhigh模式断层碾压。

智能不再是一个固定值，而是算力的函数。

这意味着什么？意味着通往ASI的路径，可能不需要等待下一代架构革命。

只要推理算力持续扩展，只要Scaling Law不撞墙。

今天在ProgramBench上只能重建cmatrix的模型，明天就可能重建SQLite，后天就可能重建整个Linux内核。

谷歌DeepMind突破AI长视频处理瓶颈：延迟降低35%，帧数与准确率双提升

与普通视频AI先完整扫描每一帧再事后删减信息的方式不同，LiteFrame在扫描阶段就直接输出压缩后的精华信息，每帧只生成16个视觉令牌（而非传统的256个），从而同时减轻视觉编码器和语言模型两端的计算负担，…

2026-05-26

马斯克点赞重庆东站引热议，这座世界级超级枢纽如何重塑城市未来？

首先，重庆东站能火出圈、获得马斯克关注，核心原因是它契合当下全球超级交通枢纽的优质建设水准，兼具规模、科技、战略三重硬核优势。科技赋能是它亮眼的标签，也是吸引海外关注的核心亮点。同时，枢纽的辐射能力将带动…

2026-05-26

荣耀600系列手机正式发布肖战代言超大电池与影像升级成亮点

新机采用全新“3D星河美学”设计语言，加入42颗钻闪四芒星元素以及双重磁吸猫眼双子星环设计，并提供幸运星、光羽蓝、青苹果和曜石黑等多款配色。性能方面，荣耀600 Pro搭载天玑8550 Elite处理器；荣…

2026-05-26

盯盯拍MINI 3S Master京东预售开启！4K影像+夜视增强，券后仅364元

2026-05-26

育碧《孤岛惊魂7》测试生成式AI，记者直言效果欠佳引关注

2026-05-26

OpenAI GPT-5.6模型或下月发布上下文窗口达150万token引关注

2026-05-26

荣耀600 Pro来袭：全焦段4K实况记录生活，8000mAh大电池续航无忧

其中幸运星ID设计、支持全焦段4KLive、0.98mm极窄四等边、双重磁吸工艺都是行业首发或独家，2亿超清大底主摄、教科书级护眼屏、8000mAh大电池等配置也做到了行业领先。在功能层面，荣耀600 …

2026-05-26

小米汽车电池经1230项严苛测试，安全性能卓越，引领电动车行业新高度

面对电动车的安全问题，你是否也感到过担忧？看到这，可能你会好奇：小米汽车的供应链布局又是怎样的呢？尽管具体份额尚未最终确定，但这一举措无疑显示了小米汽车在供应链管理上的前瞻性。如果你是电动车车主，你会选择这样…

2026-05-26