ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

从物理到AI底层:OpenAI幕后工程师Scott Gray如何用CUDA内核改写训练规则

时间:2025-10-02 06:37:54来源:快讯编辑:快讯

在人工智能领域,聚光灯往往聚焦于那些站在台前的明星科学家,但真正推动技术进步的,还有无数在幕后默默耕耘的工程师。近期,OpenAI 的一位资深工程师因其在底层性能优化方面的卓越贡献,成为行业关注的焦点。

事件起因于社交媒体上的一则热门帖子,其中提到 OpenAI 仅凭一位工程师编写的关键 CUDA Kernel,便支撑起每日数万亿次的庞大计算量。评论区纷纷猜测,这位“幕后大神”正是 OpenAI 的资深工程师 Scott Gray。这一猜测并非空穴来风,OpenAI 的官方介绍明确指出,他的工作重心是“优化深度网络在 GPU 上的性能”。

编写高性能的模型训练 CUDA Kernel 是一项极具挑战性的工作,要求开发者同时精通并行计算理论、GPU 硬件架构与深度学习算法。大多数开发者停留在应用层,使用现成工具;从事推理优化的人稍多,但能深入底层,为复杂的训练过程(尤其是反向传播)手写出超越 cuDNN 等现有库的 CUDA Kernel 的开发者,可谓凤毛麟角。而 Scott Gray 的职业轨迹,恰好是为这一角色量身打造的。

Scott Gray 的职业生涯始于 UIUC 物理与计算机科学专业。2016 年,他加入 OpenAI,此前在 Nervana Systems(一家后被英特尔收购的公司)从事 GPU 汇编级内核优化。Nervana 的前 CEO 在评论区直言,当年他们在论坛发现 Scott 后便立即聘用,并盛赞其为“全球最强 GPU 程序员”。

在 Nervana 时期,Scott Gray 的声名鹊起源于他对硬件底层极限的探索。当时,深度学习正处于爆发前夜,但软件框架与底层硬件之间存在巨大的效率鸿沟。绝大多数开发者依赖 NVIDIA 的 CUDA C/C++ 和官方库(如 cuBLAS、cuDNN)进行 GPU 编程。这种标准流程虽然便捷,但其多层软件抽象屏蔽了硬件细节,也成为了性能的“天花板”。

Gray 的哲学是,要实现真正的性能突破,必须绕过这些抽象层。为此,他开发了 maxas——一个针对 NVIDIA Maxwell 架构的汇编器。这让他得以手动编写出极致性能的计算内核,直接控制硬件资源,包括寄存器分配、内存延迟管理和指令流水线控制。为了证明其价值,Gray 使用 maxas 手写了一个 SGEMM(单精度通用矩阵乘法)内核,结果在 GM204 GPU 上达到了硬件理论峰值的 98%,性能比 NVIDIA 官方闭源的 cuBLAS 库还要快 4.8%。

在 maxas 成功的基础上,Gray 将目光投向了深度学习中的另一个核心计算——卷积。他开发了 maxDNN,旨在证明底层优化方法论是一种可以系统性应用的通用策略。maxDNN 借鉴了当时最高效的卷积算法思路,但在底层完全采用 maxas 中被验证过的汇编级优化技术。最终,其核心计算循环中,超过 98% 的指令都是纯粹的浮点运算指令,计算效率极高。在 AlexNet 模型的所有卷积层上,maxDNN 稳定地达到了 93-95% 的计算效率,全面超越了当时 NVIDIA 的 cuDNN 库。

加入 OpenAI 后,Gray 的工作重心发生了战略性转变。随着 Scaling Laws 的提出,模型规模的增长成为提升性能的关键。然而,稠密模型的无限扩张在计算和成本上面临瓶颈。Gray 的工作转向了为更高效的稀疏模型架构开发底层工具,从一个“优化者”转变为一个“使能者”。

Scott Gray 的名字出现在几乎所有 OpenAI 的里程碑式论文中,包括 GPT-3、GPT-4、Codex 和 DALL-E。他作为核心技术人员,编写了大量高性能 GPU 内核,支撑了这些模型万亿次级别的训练和推理计算。为了解决稠密模型的规模化难题,Gray 与同事共同开发了一套创新的块稀疏(block-sparse)GPU 内核。

不同于移除单个权重的非结构化稀疏,块稀疏将权重矩阵划分为固定大小的块,并将整个块置零。Gray 为此开发了专门的 GPU 内核,在计算时能够完全“跳过”这些零值块,从而大幅提升效率。这些内核的运行速度可以比处理稠密矩阵的 cuBLAS 或处理通用稀疏矩阵的 cuSPARSE 快上几个数量级。利用这些内核,OpenAI 在文本和图像生成等多个任务上取得了当时的领先成果,并将这些高性能的块稀疏内核进行了开源,旨在推动整个社区在模型和算法设计上的进一步创新。

更多热门内容
探访华为练秋湖研发中心,共赴世界城市日共话智慧城市未来
2025年,世界城市日将继续践行“城市,让生活更美好”的理念,推出一系列高水平、国际化、青年友好的社会活动,通过内容丰富多样的论坛、展览、公益等形式,提升公众对智慧城市与可持续未来的关注与参与,推动社会各界探…

2025-10-02

港科大(广州)仿生机器人赛:全栈实战校企携手 破局产业痛点
南方财经记者观察到,港科大体系近百名本硕博学生及毕业生带来了十多个创新成果,围绕仿生机器人开展的全栈技术实战,正在以“小切口”破解机器人产业痛点。 今年5月,港科大(广州)与天太机器人成立了联合实验室,为参赛…

2025-10-02

探访华为练秋湖研发中心,共话智慧城市创新发展与民生温度
2025年,世界城市日将继续践行“城市,让生活更美好”的理念,推出一系列高水平、国际化、青年友好的社会活动,通过内容丰富多样的论坛、展览、公益等形式,提升公众对智慧城市与可持续未来的关注与参与,推动社会各界探…

2025-10-02

​《生成式AI安全应急指南:从事件分类到响应全流程详解》​
今天分享的是: 报告共计:35页 《》(V1.0-202509)由全国网络安全标准化技术委员会秘书处2025年9月发布,国家计算机网络应急技术处理协调中心、中国电子技术标准化研究院等多单位参与起草,旨在指导生…

2025-10-02

OpenAI幕后英雄Scott Gray:从底层优化到赋能AI新架构的硬核之路
在 OpenAI 的官方介绍中也明确提到,他的工作重心是「优化深度网络在 GPU 上的性能」。 与在 Nervana 时一样,OpenAI 也将这些高性能的块稀疏内核进行了开源,旨在推动整个社区在模型和算法…

2025-10-02

OpenAI深夜发布Sora2:推出配套App,开启视频生成与社交新体验
2024 年 2 月发布的初代 Sora 模型,在很多方面都堪称视频领域的 GPT-1 时刻 ——这是视频生成首次让人觉得开始行得通,像物体恒存性这样的简单行为,也随着预训练计算量的提升而出现。通过观看 …

2025-10-02

AI邂逅千年徽韵!安徽名人馆“星火伴游”上线,开启智慧文旅新体验
这是继合肥科技馆之后,“星火伴游”在安徽落地的又一重要文化场馆,也是其从科普教育场景迈向深度文旅场景,人工智能大模型驱动智慧文旅建设的重要实践。 本次“星火伴游”在规定时间内完成系统部署与场馆知识库配置并成功…

2025-10-02

OpenAI与DeepMind顶尖人才携手,以AI改造科研,3亿美元助力攻克超导难题
PeriodicLabs志在重塑科研的底层流程:他们要让AI走进实验室、提出假设、执行实验、生成数据、优化设计——一步步逼近「自动化科学发现」的理想。 他们都意识到:LLM已经在代码、数学和知识问答中展现…

2025-10-01

日本仿生美女机器人引关注:恒久青春与智能协作,科技照亮未来生活新图景
即使在生物科技领域,科学家对衰老机理的研究日渐深入,也让人们对活到一百岁有了更具体的想象。被誉为机器人之父的石黑浩曾公开表示,这类外观接近女性的仿生机器人可以根据需要设定年龄段,除了美观,性格也相当温和,甚至…

2025-10-01