ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

GPT-5与Claude之争:OpenAI如何“筛选”测试让成绩更好看?

时间:2025-08-20 22:35:37来源:新智元编辑:快讯团队

在科技界的一场盛会上,OpenAI震撼宣布其最新力作GPT-5问鼎巅峰,自诩为全球代码能力最强的AI模型。然而,发布会的高潮却被一场突如其来的尴尬插曲打断——一张对比数据表中,52.8竟然大于69.1等于30.8,这一明显错误迅速在网络上引发热议。

这张原本旨在彰显GPT-5卓越性能的数据表,意外成为了全球网友的笑柄。表中,OpenAI年薪丰厚的精英团队精心准备的数据,却在直播中暴露出了如此低级的错误。尽管随后OpenAI官方迅速更正,但这一插曲无疑为发布会蒙上了一层阴影。

然而,在这场风波之下,一个更为关键的信息却被许多人忽视。GPT-5在SWE-bench Verified基准测试中取得了74.9%的通过率,略高于竞争对手Anthropic的Claude Opus 4.1的74.5%。这一成绩使得GPT-5在软件工程任务基准上暂居领先地位。

然而,随着事件的深入调查,GPT-5的这一成绩开始显得不那么光彩。原来,SWE-bench Verified基准测试共有500道题目,而GPT-5并未参与全部题目的测试,而是直接跳过了其中23道无法运行的题目,仅基于剩余的477道题目计算得分。

这一发现迅速引发了外界的质疑和争议。SemiAnalysis等专业机构纷纷发帖指出这一问题,Anthropic也在其博客上含蓄地表达了对GPT-5成绩真实性的怀疑。相比之下,Claude Opus 4.1则老实地完成了全部500道题目的测试。

更令人惊讶的是,被GPT-5跳过的这23道题目,恰恰是SWE-bench Verified基准测试中最困难的一批问题。据第三方分析,这些极端困难的任务对模型的综合能力提出了严峻考验,而GPT-5却直接选择了回避。

OpenAI对此的解释是,其基础设施无法运行这23道题目。然而,这一解释并未能平息外界的质疑。如果将这23道题目按0分计入,GPT-5的得分将大幅下降,甚至可能低于Claude Opus 4.1的74.5%。

这场风波的核心争议在于评测分数的可比性和报告方法的透明性。SWE-bench Verified基准测试本身就是由OpenAI与SWE-bench作者合作推出的,因此其公正性和客观性也受到了质疑。SemiAnalysis等机构认为,要想公平地对比模型之间的成绩,或许应该参考SWE-bench官方排行榜上的数据。

SWE-bench被誉为AI界的“程序员高考”,测试题目均来自GitHub上真实的开源项目问题。要想在SWE-bench上取得高分,不仅需要修复bug,还不能引入新的bug,这一标准极为严格。而SWE-bench Verified则是SWE-bench基准测试的一个经过人工校验的子集,其质量更高,难度也更大。

在这场风波中,GPT-5的成绩似乎被人为地“美化”了一番。通过跳过最困难的任务,GPT-5得以在SWE-bench Verified基准测试中取得了一个相对较高的分数。然而,这种做法却引发了外界的广泛质疑和争议。

在科技界,诚信和透明是立足之本。OpenAI作为业界的领军企业,应该更加注重评测的公正性和客观性。希望这场风波能够引起业界的广泛关注,推动评测体系的不断完善和发展。

更多热门内容