马斯克先行一步，国产大模型集体冲刺十万卡集群？-人工智能-ITBear科技资讯

【ITBEAR】9月25日消息，国内大模型企业是否即将迈入十万卡时代？这一话题近期备受关注。随着百度发布全面升级的百舸AI异构计算平台4.0，以及阿里云和腾讯相继宣布其集群已拓展或支持至十万卡级别，这一设想似乎正逐步成为现实。

百度智能云事业群总裁沈抖直言，百舸4.0专为部署十万卡大规模集群而设计。与此同时，阿里云也宣布其灵骏单网络集群已达到十万卡级别，而腾讯此前也发布了支持十万卡集群的星脉网络2.0。这一系列的动态，使得十万卡集群突然成为舆论的焦点。尤其是在9月初，马斯克宣布在短短122天内建成了10万张英伟达H100显卡的Colossus集群，其算力可能已超过OpenAI，这一消息更是引发了广泛关注。

由显卡规模撑起的算力水平，是衡量大模型性能的重要指标之一。一般认为，拥有1万枚英伟达A100芯片，是做好AI大模型的算力门槛。然而，建一个万卡集群，单是GPU的采购成本就高达几十亿，因此国内能够部署万卡规模集群的，原本就只有阿里、百度等寥寥几家大厂。想要部署十万卡集群，其资金和技术挑战可想而知。

除了资金成本，十万卡集群同样面临巨大的技术挑战。沈抖指出，GPU是一种非常敏感的硬件，连一天之内气温的波动，都会影响到GPU的故障率，而且规模越大，出故障的概率就越高。此外，大模型训练过程需要全部显卡同时参与并行计算，这对网络传输能力也提出了更大的挑战。

据ITBEAR了解，相比于美国同行，中国大模型企业还面临一重特殊的困难，即无法像马斯克那样全部采用英伟达方案，而是需要使用包括国产GPU在内的异构芯片。这也意味着，即使同样拥有十万张显卡，国内企业在算力规模上也很难与美国企业匹敌。

然而，在上述三重挑战之下，国内大模型企业的进步速度也有目共睹。沈抖介绍，百舸4.0在万卡集群上实现了有效训练时长占比99.5%以上，业界领先，并通过一系列创新大幅提升了集群的模型训练效率。而阿里云CTO周靖人也透露，目前阿里云的万卡算力集群可以实现大于99%以上连续训练有效时长。

但随着性能提升，大模型成本问题也越来越引人注目。沈抖透露，十万卡集群每天就要消耗大约300万千瓦时的电力，相当于北京市东城区一天的居民用电量。尽管在过去一年中大模型厂商的降价幅度确实可观，但这更多是平台补贴开发者的结果，并非根本解决之道。对此，阿里云方面强调，AI发展仍然处在一个非常早期的阶段，必须要靠降价带动应用爆发。

关键词：#国内大模型企业#、#十万卡集群#、#算力挑战#、#技术进步#、#成本问题#