在人工智能算力领域,英伟达长期占据主导地位的现象引发了行业深度探讨。近期一项基于大规模基准测试的研究显示,在特定条件下,英伟达平台生成相同数量token的成本仅为AMD平台的十五分之一,这一数据为"算力霸主"的称号提供了新的注解。
研究团队选取了从基础密集模型到前沿混合专家(MoE)架构的全场景模型进行测试,时间跨度覆盖三个月的持续观测。测试发现,当模型复杂度达到临界点时,硬件架构的差异开始显著影响整体效率。以DeepSeek-R1模型为例,在75 tokens/秒/用户的交互强度下,英伟达GB200 NVL72系统的单GPU性能达到AMD MI355X的28倍,而单位算力成本仅为后者的十五分之一。
这种性能差距源于架构设计的根本差异。MoE模型通过将参数分散到多个专家子网络实现高效计算,但这种设计对硬件互联能力提出严苛要求。当专家分布在不同GPU时,数据传输延迟会导致计算单元闲置。测试显示,所有8卡系统在扩展至多节点时都会遭遇性能瓶颈,但英伟达通过NVLink技术将72块GPU整合为统一计算域,提供130TB/s的带宽,有效缓解了通信压力。
软件层面的优化进一步放大了硬件优势。英伟达Dynamo推理框架采用的动态调度算法,能够根据实时负载调整预填充与解码任务的分配,配合智能KV缓存路由机制,使系统在处理复杂推理任务时保持高效运转。这种软硬件协同设计在GPT-OSS-120B等中等规模MoE模型上已展现出明显优势,当交互强度提升至250 tokens/秒/用户时,性能差距扩大至6.6倍。
成本模型分析揭示了反直觉的经济性。虽然GB200 NVL72的单GPU小时租金是MI355X的1.86倍,但在高强度推理场景下,其性能优势完全抵消了价格溢价。以75 tokens/秒/用户的负载为例,英伟达平台的单位美元性能达到AMD平台的15倍,这意味着服务提供商在相同预算下可处理15倍的请求量。这种优势在机柜级部署时更为显著,28卡配置的GB200 NVL72可输出275 tokens/秒/用户,而AMD平台在同等吞吐量下的峰值仅为其四分之一。
行业观察指出,这种差距本质上是技术路线选择的差异。AMD的Helios机柜级解决方案仍在开发阶段,预计未来12个月内可能缩小部分差距。但在当前以推理任务为主导的市场环境中,从芯片设计到系统架构再到软件生态的全栈优化能力,已成为决定成本效益的关键因素。特别是在MoE架构逐渐成为主流的当下,硬件平台的通信效率直接决定了模型的实际表现。
测试数据还显示,随着模型复杂度提升,不同平台的性能分化呈现加剧趋势。在基础密集模型Llama 3.3 70B上,英伟达的领先幅度相对温和,但当交互强度从30 tokens/秒/用户提升至110 tokens/秒/用户时,性能差距从1.8倍扩大至6倍以上。这种非线性增长特性,使得简单对比峰值算力失去实际意义,转而催生出"每美元智能产出"的新型评估标准。