ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

万亿参数大模型时代:超节点系统成算力挑战新解

时间:2025-08-08 20:20:16来源:钛媒体APP编辑:快讯团队

随着人工智能技术的飞速发展,模型两极化趋势愈发显著。在企业应用层面,小参数模型凭借其高效性与实用性,成为众多企业的首选。与此同时,通用大模型的参数规模不断攀升,正式迈入万亿参数的新纪元。

MoE(Mixture of Experts)高效模型架构的兴起,成为推动大模型参数规模持续扩大的关键力量。以KIMI K2开源模型为例,该模型采用MoE混合专家架构,总参数量高达1.2万亿,但在每个Token推理时,仅激活32B参数,实现了高效与性能的双重提升。

然而,万亿参数模型的到来,也给算力系统带来了前所未有的挑战。庞大的算力需求、复杂的分布式训练通信开销、以及MoE模型训练稳定性等问题,都亟待解决。以GPT-3为例,其1750亿参数的训练量就需要在2.5万张A100 GPU上运行90-100天,万亿参数模型的算力需求更是数十倍于此,传统计算架构难以满足。

面对这些挑战,企业开始探索新的算力系统架构。其中,构建大规模Scale Up系统被视为解决万亿参数模型计算挑战的最优解。通过超节点技术,将数百颗AI芯片封装为统一计算实体,实现跨节点通信性能接近节点内水平,从而满足万亿模型对算力与显存的极致需求。

浪潮信息副总经理赵帅指出,万亿模型对算力系统提出了巨大挑战,企业需要具有更大显存空间、更大高速互连域、更高算力的超节点系统支持。为此,浪潮信息推出了面向万亿参数大模型的超节点AI服务器“元脑SD200”。该产品基于多主机低延迟内存语义通信架构,聚合64路本土GPU芯片,可单机运行1.2万亿参数Kimi K2模型,并支持多种模型同时运行,满足多样化需求。

元脑SD200不仅在硬件架构上进行了创新,还注重软硬件的协同优化。赵帅表示,软件在超节点复杂的系统中发挥着重要作用。通过深度适配硬件特性、针对性支撑软件需求,实现“1+1>2”的效率跃升。例如,字节跳动COMET技术通过动态KV缓存重组,将MoE模型的通信延迟大幅降低,使超节点硬件利用率突破90%。

面对日益增加的单机柜功率和碳中和进程的双重压力,软硬协同也成为破局关键。若软件未适配硬件的动态功耗调节,可能导致芯片长期处于高功耗状态,甚至引发过热降频。因此,在构建超节点系统的同时,也需要注重软硬件的协同优化,以实现高效、节能的算力系统。

随着大模型技术的不断发展,推理场景的需求也越来越迫切。赵帅指出,Scale Up技术将成为接下来技术重点发展的方向。通过构建大规模、高集成度的Scale Up系统,汇聚起超大显存池以承载模型,并通过优化互连拓扑与协议实现芯片间超低延迟、高带宽通信,从而满足万亿模型推理的“放得下、算得快”的要求。

同时,多芯片协同也是目前企业常用的一种方式。通过缩短芯片间的距离,以实现更高的性能。服务器厂商也在不断探索新的技术方向,以满足客户在超大规模参数模型训推方面的需求。软硬协同、架构创新、以及超节点技术的应用,将成为未来算力系统发展的重要趋势。

更多热门内容