ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

马斯克先行一步,国产大模型集体冲刺十万卡集群?

时间:2024-09-25 21:15:15来源:ITBEAR编辑:快讯团队

【ITBEAR】9月25日消息,国内大模型企业是否即将迈入十万卡时代?这一话题近期备受关注。随着百度发布全面升级的百舸AI异构计算平台4.0,以及阿里云和腾讯相继宣布其集群已拓展或支持至十万卡级别,这一设想似乎正逐步成为现实。

百度智能云事业群总裁沈抖直言,百舸4.0专为部署十万卡大规模集群而设计。与此同时,阿里云也宣布其灵骏单网络集群已达到十万卡级别,而腾讯此前也发布了支持十万卡集群的星脉网络2.0。这一系列的动态,使得十万卡集群突然成为舆论的焦点。尤其是在9月初,马斯克宣布在短短122天内建成了10万张英伟达H100显卡的Colossus集群,其算力可能已超过OpenAI,这一消息更是引发了广泛关注。

由显卡规模撑起的算力水平,是衡量大模型性能的重要指标之一。一般认为,拥有1万枚英伟达A100芯片,是做好AI大模型的算力门槛。然而,建一个万卡集群,单是GPU的采购成本就高达几十亿,因此国内能够部署万卡规模集群的,原本就只有阿里、百度等寥寥几家大厂。想要部署十万卡集群,其资金和技术挑战可想而知。

除了资金成本,十万卡集群同样面临巨大的技术挑战。沈抖指出,GPU是一种非常敏感的硬件,连一天之内气温的波动,都会影响到GPU的故障率,而且规模越大,出故障的概率就越高。此外,大模型训练过程需要全部显卡同时参与并行计算,这对网络传输能力也提出了更大的挑战。

据ITBEAR了解,相比于美国同行,中国大模型企业还面临一重特殊的困难,即无法像马斯克那样全部采用英伟达方案,而是需要使用包括国产GPU在内的异构芯片。这也意味着,即使同样拥有十万张显卡,国内企业在算力规模上也很难与美国企业匹敌。

然而,在上述三重挑战之下,国内大模型企业的进步速度也有目共睹。沈抖介绍,百舸4.0在万卡集群上实现了有效训练时长占比99.5%以上,业界领先,并通过一系列创新大幅提升了集群的模型训练效率。而阿里云CTO周靖人也透露,目前阿里云的万卡算力集群可以实现大于99%以上连续训练有效时长。

但随着性能提升,大模型成本问题也越来越引人注目。沈抖透露,十万卡集群每天就要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。尽管在过去一年中大模型厂商的降价幅度确实可观,但这更多是平台补贴开发者的结果,并非根本解决之道。对此,阿里云方面强调,AI发展仍然处在一个非常早期的阶段,必须要靠降价带动应用爆发。

关键词:#国内大模型企业#、#十万卡集群#、#算力挑战#、#技术进步#、#成本问题#

更多热门内容
讯飞医疗2025中期业绩亮眼:C端业务占35%,晓医APP咨询量飙升1.4亿
来源:格隆汇APP 格隆汇8月20日|医疗大模型第一股讯飞医疗(2506.HK)发布2025年中期业绩报告。报告显示,公司上半年实现总营收2.986亿元,同比增长30%;毛利1.539亿元,同比增长27%,毛…

2025-08-21

讯飞医疗科技2025中期业绩:营收近3亿,亏损收窄,基层解决方案增长超五成
人民财讯8月20日电,8月20日晚,讯飞医疗科技发布2025年中期业绩,公司上半年实现营收2.99亿元,同比增长30%;归母净利润为亏损7408.6万元,同比减亏;毛利1.54亿元,同比增长27%,毛利率达5…

2025-08-21