在科技界的一场重量级较量中,OpenAI与Anthropic的Claude之间的博弈再次升级,而这次焦点集中在了SWE-bench Verified编程测试上的成绩。
近日,OpenAI在发布会上宣布GPT-5在代码能力上取得了全球领先的地位,但在发布会的高光时刻却出现了一个令人啼笑皆非的乌龙——一张关于成绩对比的表格,其中的数字竟然出现了明显的逻辑错误。尽管这一插曲迅速在网络上引起了热议,但更为关键的信息似乎被不少人忽略了。
在SWE-bench Verified基准测试中,GPT-5公布的通过率为74.9%,略高于Anthropic的Claude Opus 4.1的74.5%。然而,这一看似微小的差距背后却隐藏着不同的测试策略。OpenAI并未让GPT-5参与全部500道题目的测试,而是剔除了23道无法在其基础设施上运行的题目,仅基于剩余的477道题计算得分。相比之下,Claude则完成了全部500道题目的测试。
这一细节迅速引起了业界的关注。SemiAnalysis专门发帖指出了这一问题,而Anthropic也在其博客上以一种微妙的方式对此进行了“内涵”。如果将GPT-5未参与的23道题目按0分计入,其实际得分将有所下降,而Claude的74.5%则是在完成了所有题目的基础上取得的。
更这23道被剔除的题目并非无关紧要,相反,它们大多是SWE-bench Verified集中最困难的一批问题。据第三方分析,在耗时超过4小时的任务中,绝大多数模型都无法解决任何问题,而这些极端困难的任务对模型的综合能力是严峻的考验。GPT-5若无法运行这些任务,那么在全面能力上可能尚未真正超越Claude 4.1。
SWE-bench,被誉为AI界的“程序员高考”,测试内容全是真实世界的代码难题。不仅要修复bug,还不能引入新bug,标准极为严格。OpenAI认为SWE-bench的一些任务过于困难,无法很好地评估模型能力,因此与SWE-bench作者合作发布了SWE-bench Verified,这是一个经过人工校验的子集,包含500道经过筛选的题目。
在这场较量中,Claude考的是“全科”,而GPT-5考的则是“精选版”。这样的成绩对比,自然引发了关于评测分数可比性和报告方法透明性的争议。甚至有人猜测,OpenAI是否故意用发布会的乌龙事件来转移公众对于SWE-Bench分数的注意力。毕竟,在复杂多变的科技竞争中,真相往往隐藏在数字背后的故事里。