ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

国产算力破局:从万卡到十万卡,跨越技术鸿沟的“三重门”挑战

时间:2026-03-21 06:09:14来源:快讯编辑:快讯

中科曙光近日在郑州宣布,其自主研发的scaleFabric高速网络产品已成功应用于国家超算互联网核心节点的万卡级国产智算集群。这一突破标志着国产算力基础设施在关键技术领域实现重要进展,为应对国际竞争提供了新的技术支撑。与海外巨头英伟达宣称的十万卡集群规模相比,国产算力虽在数量级上存在差距,但通过全栈自主创新,正逐步缩小技术代差。

中国科学院计算技术研究所专家指出,曙光实现的万卡集群是当前国内唯一完成CPU、GPU、交换机芯片及网卡芯片全栈国产化的案例。此前,英伟达通过收购迈络思掌握InfiniBand(IB)网络核心技术,长期垄断高端算力集群的互联市场。国产算力产业因这一技术瓶颈,在向超大规模集群发展的过程中面临诸多限制。曙光scaleX集群的落地,不仅打破了IB网络的技术垄断,更为国产算力生态的完善奠定了基础。

从技术层面看,万卡到十万卡的跨越并非简单的规模扩张。中科曙光高级副总裁李斌表示,当集群规模呈数量级增长时,计算效率的可扩展性与系统可靠性成为核心挑战。行业数据显示,支撑下一代万亿参数大模型训练需八万至十万卡规模的集群,而单点故障率在超大规模系统中会被指数级放大。确保十万张加速卡协同运行数小时甚至数天完成训练,其技术复杂度呈几何级上升。

奇异摩尔联合创始人祝俊东从互联角度分析,超大规模集群对交换机带宽、存储容量及端侧协议提出更高要求。传统IB或RoCEv2协议基于“无损网络”设计,但在十万卡规模下,网络必然变为“有损”,需解决高效重传、丢包处理及拥塞管理等难题。该公司通过自研Kiwi Fabric协议栈,采用快速检测与重传机制应对挑战。然而,硬件与协议仅是基础,网络、计算、供电、机柜形态及上层控制系统的整体协同同样关键。

北京科技大学储根深教授的实践印证了这一点。其团队利用曙光scaleFabric支持的GPU显存直接互联技术,将通信路径从“GPU-CPU内存-网络-CPU内存-GPU”优化为“GPU显存直通网络”,使万卡规模下部分软件的通信开销从50%降至10%。这表明,硬件性能需通过软件栈深度适配才能转化为实际效率。但目前国内既懂芯片架构又懂AI算法的复合型人才团队仍显不足。

系统级调优是释放硬件潜力的另一关键。科大讯飞AI工程院专家鲍中帅指出,国产单卡性能已对标英伟达A100,但万卡以上集群的性能发挥依赖网络与系统性调优能力。国内具备全栈调优能力的厂商较少,这不仅是硬件比拼,更是系统工程与软件实力的综合较量。曙光提出的scaleX超集群与算存传耦合架构,试图通过系统创新实现“1+1+1>3”的效果,但需全产业链协作。

在技术路线选择上,国产算力面临IB与以太网RoCE的分野。中科曙光scaleFabric选择兼容IB生态,因其“无损网络”特性对RDMA性能至关重要。但部分行业专家认为,全球多数智算中心基于RoCE技术,且互联网企业已形成成熟的以太网架构,单独部署IB会增加网络复杂性。这种分歧源于用户背景:超算领域习惯IB体系,而智算领域以互联网企业为主,更倾向以太网。

这种双轨格局对国产算力发展提出双重挑战。一方面,需支持不同算力芯片适配,形成开放生态;另一方面,需解决增量部署的兼容性问题。例如,用户若保留英伟达IB交换机仅替换国产网卡,可能因私有协议限制导致通信失败。这凸显了掌握自主核心技术的重要性。

国产算力正探索一条差异化发展路径。与海外“暴力堆算力”不同,国内通过提升算力效率、降低成本推动AI普惠,并依托电力优势与互联技术追赶,实现“以系统优势弥补单点差异”。在软件层面,国产厂商通过精细化优化挖掘硬件潜力;在架构层面,存算一体、重构计算等新型架构为突破海外限制提供新可能。

更多热门内容
小红书“RED精选计划”上线:以“精选”重构流量,创作者与用户的新机遇?
过去两年,抖音精选通过月度创作者榜单、独立App等组合拳,已经在中长视频领域建立了一定的用户心智——“想看有深度的视频,可以去抖音精选”;B站则凭借社区氛围和长视频基因,稳守“学习型视频”的基本盘;而小红书…

2026-06-15

智能办公本怎么选?科大讯飞Air 2 Pro、Remarkable 2等四款热门产品深度对比来啦
本文将对比几款市场上热门的智能办公本,包括科大讯飞智能办公本Air 2/Pro、Remarkable 2、Onyx Boox NovaAir和小米平板,帮助你找到最适合自己的产品。 在对比这些产品时,科大讯…

2026-06-15

小米工程师再谈大模型:以作品论英雄,盼赛道回归技术本真
1、过去一年国内大模型最让我兴奋的事,不是谁又刷了榜单,而是行业开始靠作品说话 —— 开源代码放 GitHub 上让人审、论文挂 arXiv 上让人查、模型丢给开发者让人用,算力芯片造福更多群体。自己的本…

2026-06-15

谷歌与高校联手:旧Pixel手机变身计算集群,低成本助力教学与数据中心建设
快科技6月15日消息,谷歌与加州大学圣地亚哥分校(UCSD)合作,将旧Pixel手机改造为低成本计算集群,根据谷歌的研究,25至50台旧手机的算力即可匹敌一颗双路服务器级CPU。 研究团队首先拆除了手机上不必…

2026-06-15

小米汽车副总裁宋钢谈制造:特斯拉护城河在制造,小米亦视其为前行支柱
6月13日,在2026中国汽车重庆论坛上,小米汽车部副总裁、参谋长宋钢在演讲中表示提到汽车制造与供应链,很多人会联想到传统生产流水线、工业焊枪,但如今行业逻辑已经发生改变。宋钢提到,特斯拉真正的护城河是它的制…

2026-06-15