ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

英伟达Vera Rubin平台新突破:LPU登场,与GPU共筑AI推理新未来

时间:2026-03-17 13:31:05来源:快讯编辑:快讯

在近日举办的英伟达GTC 2026大会上,英伟达创始人兼首席执行官黄仁勋身着标志性皮衣亮相,宣布公司正从“芯片公司”向“AI基础设施工厂”全面转型。他透露,到2027年,英伟达新一代AI芯片的累计营收将突破1万亿美元,这一数字是去年预测的两倍,引发市场高度关注。

本次大会的核心亮点是Vera Rubin AI工厂平台的发布。与以往发布单芯片不同,此次展示的是一个包含7款全新芯片的“全家桶”系统。黄仁勋强调:“过去提到Hopper,我会举起一块芯片,那很可爱。但提到Vera Rubin,大家想到的是整个系统。”

该系统级平台的核心组件包括专为“AI智能体时代”设计的Vera CPU,其搭载88个自研“Olympus”核心,性能较传统CPU提升50%,能效翻倍,被比作智能体系统的“指挥与调度中心”。Rubin GPU则通过NVLink-C2C技术与Vera CPU实现1.8TB/s的互联带宽,构成算力核心。平台还集成了NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及带同包光学器件的Spectrum-X可扩展交换机,形成完整的超高速互联、网络与数据处理基础架构。

基于这些组件构建的Vera Rubin NVL72机架集成了72颗Rubin GPU和36颗Vera CPU。相比上代Blackwell平台,其训练大型混合专家模型所需GPU数量减少至四分之一,推理吞吐量/瓦特提升高达10倍。黄仁勋透露,通过软硬件协同设计,英伟达在两年内将1GW数据中心内的Token生成速率提升了350倍。

大会上,黄仁勋还重点介绍了一款战略级芯片——Groq 3语言处理单元(LPU)。这款芯片源自英伟达去年12月以约200亿美元收购Groq核心技术资产,被定位为Rubin GPU的“推理协处理器”。黄仁勋解释,引入LPU是为了应对AI智能体时代推理需求的分化:面对需要极高交互性、超短响应时间的任务,传统GPU架构存在性能冗余,而LPU专注于“极致低延迟Token生成”。

Groq 3 LPU的技术颠覆性在于其内存架构。每个芯片集成500MB片上SRAM,提供高达150TB/s的带宽,是传统HBM4带宽(22TB/s)的近7倍。尽管容量仅为Rubin GPU上HBM4的1/500,但对于带宽敏感的AI解码操作,LPU的优势无可替代。基于此芯片的Groq 3 LPX机架配备256颗LPU,提供128GB片上SRAM和640TB/s总带宽。

英伟达超大规模计算副总裁Ian Buck指出,LPU与GPU的协同工作将重新定义AI推理架构:Rubin GPU负责需要海量计算的“预填充”阶段,Groq LPU负责延迟敏感的“解码”阶段。在这种混合架构下,系统推理吞吐量与功耗比最高可提升35倍。黄仁勋建议企业客户,若工作负载包含大量高价值Token生成需求,应将25%的数据中心规模配置给Groq LPU。

三星电子在本次大会上扮演了重要角色。黄仁勋特别感谢三星为英伟达加快生产Groq 3 LPU芯片,并透露该芯片将于2026年第三季度正式出货。这一合作标志着三星与英伟达的伙伴关系从存储领域扩展到晶圆代工领域。三星当天展出了第七代HBM产品“HBM4E”和垂直堆叠芯片“核心裸片”,强调其在存储和代工领域的双重优势。

然而,SRAM的高成本和芯片面积占用问题也带来挑战。单个Groq 3 LPU仅能提供500MB内存,远不足以独立运行万亿参数级别的超大AI模型。英伟达的解决方案是通过数量弥补容量:将256颗LPU集成到一个Groq 3 LPX机架中,采用液冷设计,并通过专用扩展接口实现芯片互联。Ian Buck承认,这种设计需要大量芯片才能获得高性能,从每芯片的token吞吐量经济性来看,LPU其实相当低。

在混合架构的协同工作方面,大语言模型的推理过程分为预填充和解码两个阶段。预填充阶段需要强大浮点运算能力和大容量内存存储键值缓存,由Rubin GPU负责;解码阶段对延迟极度敏感,受内存带宽限制严重,由Groq LPU处理。在Dynamo软件框架的协调下,Rubin GPU利用其288GB HBM4处理复杂计算,Groq LPU利用其150TB/s带宽实现极低延迟的逐token生成。

随着AI从单一大模型走向多智能体系统,推理延迟的要求发生根本性变化。Ian Buck表示,Rubin GPU和Groq LPU的组合将人工智能代理间通信的吞吐量从每秒100个token提升到每秒1500个token甚至更高。根据英伟达官方基准测试,运行1万亿参数规模的大语言模型时,该组合相比上代方案推理吞吐量每瓦特提升高达35倍,每百万token成本为45美元,每秒token处理量达到500。

分析认为,收购Groq技术并将其整合到Rubin平台,是英伟达对推理市场竞争者的直接回应。长期以来,英伟达在训练市场占据主导,但在低延迟推理领域面临Cerebras等挑战者的竞争。Cerebras的晶圆级引擎同样集成大量SRAM,为先进模型提供低延迟推理,甚至吸引了OpenAI等大客户。通过引入Groq LPU,英伟达终于进入了推理市场——一个它从未成为第一的市场。

对于现有英伟达客户而言,Groq LPU的一个重要优势是软件兼容性。Groq 3 LPX机架与Rubin平台的结合无需修改现有的NVIDIA CUDA软件生态系统,企业客户可以在不重写代码的前提下,通过增加LPU机架显著提升推理性能。PCMag预测,OpenAI、Anthropic、meta等大型AI公司将成为这项技术的首批采用者,未来用户的聊天机器人查询或图像生成请求可能正由Rubin GPU和Groq LPU协同处理。

更多热门内容
ChatGPT迎重大转型:升级“超级应用” 押注Codex寻新盈利突破
据悉,OpenAI计划将ChatGPT转型为“超级应用”,整合编程工具与人工智能体,新增多款产品,以拓宽营收渠道。 Codex是OpenAI推出的AI代码生成训练模型,基于GPT-3架构改进,专注于将自然语…

2026-06-09

ChatGPT史上最大升级来袭,转型“超级应用”能否开辟盈利新路径?
据悉,OpenAI计划将ChatGPT转型为“超级应用”,整合编程工具与人工智能体,新增多款产品,以拓宽营收渠道。 Codex是OpenAI推出的AI代码生成训练模型,基于GPT-3架构改进,专注于将自然语…

2026-06-09

苹果战略大转向:砍掉Vision Pro产品线,押注AI眼镜开启新赛道
其一,赛道落地确定性极强,不存在场景与成本悖论,具备全民普及基础,市场空间远超高端XR头显;其二,AI眼镜是生成式AI时代的最佳硬件入口,作为贴近人眼的无感交互终端,能承接各类AI智能服务,有望替代手机成为下…

2026-06-09

WWDC26苹果AI大更新:Siri告别“智障”,Gemini助力能否让苹果AI逆袭?
Apple 智能这种超强的图片能力也为 Apple 智能带来了更强的 AI 图片修改能力:除了常见的物件消除、AI 扩图外,Apple这次为相册 App 加入了「空间构图」能力,可以把不同照片先拓展成带有…

2026-06-09

2026苹果全球开发者大会:新一代苹果智能亮相 融合多能力开启智能新体验
为全力发挥苹果芯片的实力,苹果推出了更强大的第二版设备端模型。 此外,凭借丰富的世界知识,苹果智能会上网搜索最新资讯,然后利用专用云计算生成答案;借助“APP操作”,苹果智能还能调用APP工具箱,在众多AP…

2026-06-09

小米17T系列新机来袭:超级阳光屏配7000mAh大电池,现已开售!
其中标准版本性价比较高,拥有不少亮点,比如徕卡专业三摄、处理器Ultra、超级阳光屏、大电池等,首要核心依然是影像+屏幕,与其它版本相同。或许,这就是小米旗舰系列的特色,离不开影像的提升。 5000万像素的…

2026-06-09

大疆储能首发DJI Power 140W氮化镓充电器:轻巧高效,多场景快充新选择
在配件生态上,DJI Power 140W 氮化镓充电器还可支持 DJI Power 7A USB-C 数显充电线(1 米)、DJIPower 7A USB-C 数显充电线(1.8 米)以及 DJI Po…

2026-06-09