在科技界的万众瞩目下,GPT-5终于揭开了神秘面纱,距离OpenAI首席执行官Sam Altman首次提及该模型已过去一年半的时间。尽管发布会依然吸引了众多熬夜观看的观众,但与前几代模型发布时引发的轰动相比,此次讨论中质疑的声音明显增多。
值得庆幸的是,从模型性能的角度来看,GPT-5成功挽回了OpenAI近期下滑的声誉。发布会上,GPT-5展现了多方面的顶尖能力,OpenAI甚至直言其为“世界最强编程模型”,直接挑战了Claude的领先地位。然而,不可否认的是,GPT-5所带来的领先优势,并不像GPT-3或GPT-4那样呈现断崖式的超越。
与此同时,竞争对手们正虎视眈眈。Anthropic宣布将在当月发布大版本更新的模型,而马斯克更是一晚刷屏,声称自家的Grok-4在某些测试中已经超越了OpenAI的新模型。面对这样的竞争态势,Altman并未直接回应,而是转而讲述大模型如何以更低成本实现广泛应用的故事。
GPT-5的发布,标志着OpenAI对最强代码模型的全力追求。此次升级,不仅刷新了性能分数,还在性价比、幻觉问题优化以及超长上下文处理等方面进行了针对性改进,旨在使GPT-5成为一个更加高效实用的工作伙伴。
GPT-5采用了统一架构,由基础模型、具有深度推理能力的GPT-5 thinking模型,以及实时路由器三部分组成。实时路由器能够根据对话类型、问题复杂性等因素快速选择最合适的模型进行处理。例如,当用户提出需要深入思考的要求时,它会调用深度推理模型。
Altman在发布会上对GPT-5充满信心,甚至用“与GPT-4的对话像是与高中生交流,而与GPT-5的对话则相当于与博士生对话”来形容其体验。在编程、数学、多模态理解和健康等多个测评指标上,GPT-5均展现了显著优势。
特别是在编程能力上,GPT-5成功抢回了领先地位。在SWE-Bench的测试中,GPT-5的推理版本得分高达74.9%,超越了自家模型O3以及Anthropic新发布的Claude Opus 4.1。发布会现场,OpenAI通过多个案例展示了GPT-5的编程实力,包括快速生成支持参数调整的网页代码、制作网页小游戏等。
除了编程能力,GPT-5在数学、多模态理解和健康等其他维度也刷新了自家模型的上限。特别是加上工具能力的GPT-5 pro,甚至能够直接在AIME 2025(美国数学竞赛)测试中取得满分成绩。
然而,发布会现场的一个低级错误引发了广泛讨论。在展示的图表中,数字大小与柱状图显示的关系不匹配,这一失误让人对OpenAI的专业性产生了质疑。不过,随后的测试表明,这似乎是制图过程中的失误,而非模型生成的问题。
尽管在性能上未能带来颠覆性的超越,但GPT-5在性价比方面却展现出了巨大优势。与Claude Opus 4.1相比,GPT-5的输入输出价格分别低至其十分之一和七分之一。这一价格优势使得OpenAI有底气限量免费开放GPT-5给所有用户使用,尽管免费用户在使用到一定额度后会自动切换为GPT-5-mini模型。
面对竞争对手的步步紧逼和性能趋同的趋势,OpenAI选择了以价格为武器来赢得市场。Altman明确表示,GPT-5虽然聪明,但OpenAI更追求的是实际应用价值和大规模的普及能力。通过优化成本,GPT-5在API端的价格优势断层领先,为开发者提供了更具性价比的选择。
在发布会后半场,OpenAI专门面向开发者群体展示了GPT-5的实用能力,并邀请了多位行业领袖为其背书。这一举措旨在向开发者展示GPT-5在Agent、氛围式编程等方面的效果,进一步推动其广泛应用。