近日,OpenAI的CEO萨姆·阿尔特曼(Sam Altman)与GPT-4.5的核心技术人员进行了一场深度对话,揭示了这款史上最昂贵模型研发过程中的诸多细节和挑战。这场45分钟的对话首次披露了GPT-4.5项目耗时严重超期、计算集群频繁故障以及提升路径难以预测等不为人知的内幕。
GPT-4.5项目始于两年前,是OpenAI迄今为止最为庞大的计划,涉及数百人的团队协作。阿尔特曼透露,为了这一项目,OpenAI几乎是“全员上阵”。然而,研发过程中遭遇了诸多“灾难性问题”。特别是当计算集群规模从1万卡扩展到10万卡时,隐藏的小概率、深层次故障频繁暴露,迫使系统团队不得不“边修边训”。其中,一个隐藏的小bug直到训练进度达到约40%时才被发现并解决。
尽管面临重重困难,GPT-4.5的研发过程也促进了OpenAI技术栈的显著增强。如今,OpenAI仅需5至10人即可复刻出GPT-4级别的大模型。从GPT-4到GPT-4.5的性能提升约为10倍,这种“难以量化但全方位增强的智能”让OpenAI员工倍感意外。然而,要实现下一个10倍乃至百倍的性能提升,算力已不再是瓶颈,关键在于数据效率。
在对话中,OpenAI员工还分享了数据长尾效应与Scaling Law之间的关系、机器学习与系统团队深度协同设计模式的优势,以及无监督学习的本质。他们强调,未来的训练可能涉及1000万块GPU规模的协作学习,这对系统的容错能力提出了更高要求。
参与对话的OpenAI员工包括Alex Paino(负责GPT-4.5的预训练机器学习算法)、Amin Tootoonchian(OpenAI首席系统架构师)和Daniel Selsam(研究数据效率与算法)。他们详细解释了GPT-4.5项目从启动到完成的复杂过程,以及为何项目耗时远超预期。
在谈到集群规模扩展时,Amin Tootoonchian指出,10万卡集群暴露了基础设施的诸多隐藏问题,这些问题在小规模阶段往往难以察觉。他强调,尽管面临诸多挑战,但团队通过增加计算资源和不断优化系统,最终成功完成了训练。
Alex Paino则分享了GPT-4.5在性能上的显著提升。他表示,GPT-4.5比GPT-4聪明10倍,这一成果得益于团队在算法和数据效率方面的不断创新。Daniel Selsam则强调了数据效率在未来大模型研发中的关键作用,认为开发出能够利用更多算力从同样数量的数据中学到更多知识的方法是突破的关键。
对话还涉及了系统架构的转变。Amin Tootoonchian表示,随着模型规模的扩大,系统正从单集群转向多集群架构。这一转变对系统的容错能力提出了更高要求,需要团队进一步优化系统设计。
在谈到未来时,OpenAI员工表示,他们将继续探索数据效率和算法创新的可能性,以实现更大规模的预训练和更强的模型智能。他们相信,随着技术的不断进步,未来的AI系统将在更多领域展现出惊人的能力。