GPT-5与Claude对决真相：OpenAI在SWE-bench测试中略过23道难题引争议-信息流-ITBear科技资讯

在科技界的一场重量级较量中，OpenAI与Anthropic的Claude之间的博弈再次升级，而这次焦点集中在了SWE-bench Verified编程测试上的成绩。

近日，OpenAI在发布会上宣布GPT-5在代码能力上取得了全球领先的地位，但在发布会的高光时刻却出现了一个令人啼笑皆非的乌龙——一张关于成绩对比的表格，其中的数字竟然出现了明显的逻辑错误。尽管这一插曲迅速在网络上引起了热议，但更为关键的信息似乎被不少人忽略了。

在SWE-bench Verified基准测试中，GPT-5公布的通过率为74.9%，略高于Anthropic的Claude Opus 4.1的74.5%。然而，这一看似微小的差距背后却隐藏着不同的测试策略。OpenAI并未让GPT-5参与全部500道题目的测试，而是剔除了23道无法在其基础设施上运行的题目，仅基于剩余的477道题计算得分。相比之下，Claude则完成了全部500道题目的测试。

这一细节迅速引起了业界的关注。SemiAnalysis专门发帖指出了这一问题，而Anthropic也在其博客上以一种微妙的方式对此进行了“内涵”。如果将GPT-5未参与的23道题目按0分计入，其实际得分将有所下降，而Claude的74.5%则是在完成了所有题目的基础上取得的。

更这23道被剔除的题目并非无关紧要，相反，它们大多是SWE-bench Verified集中最困难的一批问题。据第三方分析，在耗时超过4小时的任务中，绝大多数模型都无法解决任何问题，而这些极端困难的任务对模型的综合能力是严峻的考验。GPT-5若无法运行这些任务，那么在全面能力上可能尚未真正超越Claude 4.1。

SWE-bench，被誉为AI界的“程序员高考”，测试内容全是真实世界的代码难题。不仅要修复bug，还不能引入新bug，标准极为严格。OpenAI认为SWE-bench的一些任务过于困难，无法很好地评估模型能力，因此与SWE-bench作者合作发布了SWE-bench Verified，这是一个经过人工校验的子集，包含500道经过筛选的题目。

在这场较量中，Claude考的是“全科”，而GPT-5考的则是“精选版”。这样的成绩对比，自然引发了关于评测分数可比性和报告方法透明性的争议。甚至有人猜测，OpenAI是否故意用发布会的乌龙事件来转移公众对于SWE-Bench分数的注意力。毕竟，在复杂多变的科技竞争中，真相往往隐藏在数字背后的故事里。