ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

中科曙光突破技术壁垒 推出全栈自研400G无损网络scaleFabric赋能智算集群

时间:2026-03-12 23:46:15来源:快讯编辑:快讯

在数据中心高速网络领域,中科曙光近日宣布取得关键技术突破,正式推出国内首款全栈自研的400G无损高速网络解决方案——scaleFabric。该产品通过原生RDMA架构实现从底层硬件到上层软件的完全自主可控,标志着我国在高端网络设备领域打破海外技术垄断,为超大规模智算集群建设提供核心支撑。

面对AI大模型训练对算力网络的极端需求,传统TCP/IP协议已难以满足万卡级集群的通信要求。RDMA技术凭借零丢包、微秒级延迟的特性,成为全球顶级超算中心的首选方案。其中InfiniBand架构虽占据主导地位,但其核心产业链长期被海外企业把控,从112G SerDes IP到交换芯片等关键环节均存在技术壁垒。

scaleFabric系列产品的问世改变了这一格局。该方案采用全链路自主研发策略,涵盖从112G SerDes IP、交换芯片、网卡到交换机及管理软件的完整技术栈。其400G网卡基于PCIe5.0接口设计,端到端延迟突破0.9微秒大关;交换机产品更实现单端口800G带宽,整机交换容量达双向64Tbps,交换延迟控制在260纳秒以内,关键指标全面对标英伟达NDR系列。

在性能优化方面,该产品创新采用信用制无损流控机制,将链路故障恢复时间压缩至1毫秒以内。经实际验证,近万卡集群连续运行10个月未出现通信中断。与国际竞品相比,其交换机端口密度提升25%,网卡最大QP数支持翻倍,单子网互连规模可达传统IB架构的2.33倍,单集群最大支持11.4万卡部署,同时将网络建设成本降低30%。

目前该技术方案已在国家超算互联网郑州核心节点完成部署,成功支撑三套万卡级scaleX智算集群稳定运行,总算力规模突破3万张GPU卡。这一突破不仅验证了国产高速网络方案的可靠性,更为我国人工智能产业构建自主可控的算力基础设施提供了重要选项,有望推动国内智算中心建设进入全新发展阶段。

更多热门内容
国家能源局力推51个“人工智能+”能源场景 加速能源智能化跃升发展
国家能源局局长王宏志表示,随着我国“人工智能+”能源从概念走向实践、从探索走向推广,产业形态加速演进、创新应用多点突破、融合基础不断夯实,将加快推动人工智能和能源双向赋能,促进能源领域新质生产力跃升发展和生…

2026-05-27

AI时代:人类与机器的共生进化,是降智还是智慧新篇?
这个问题近一个世纪之后,我们终于可以给出了一个模糊而诚实的回答:它们也许不思考如人类,但思考正在以另一种形式存在。这个问题近一个世纪之后,我们终于可以给出了一个模糊而诚实的回答:它们也许不思考如人类,但思考正…

2026-05-27

5G赋能工业互联网 三川智慧水表“智变”引领传统制造业升级新篇
数字孪生、柔性产线、无序抓取与智能检测、智能仓储物流等创新技术的应用,使生产自动化水平与运行效率大幅提升,助力三川智慧向绿色制造、柔性制造、智能制造和先进制造全面转型,打造出水表行业首个全链自动化的灯塔工厂。…

2026-05-27

OpenAI首席执行官奥特曼:AI发展不会致“工作末日” 人际互动难被替代
奥特曼表示,他和团队在2022年推出ChatGPT时对OpenAI的技术预测“大致正确”,但在社会和经济影响方面“相当错误”。他表示:“我们非常重视与人的互动,这项工作占用了我很多时间,我不认为在不久的将来…

2026-05-27

AMD苏姿丰为Zen 7布局:牵手台积电A14工艺 力成FOPLP封装或成亮点
IT之家 5 月 26 日消息,工商时报昨日(5 月 25 日)发布博文,报道称在 2026 台北国际电脑展(6 月 2~5日)开幕前,AMD 首席执行官苏姿丰已开始为 Zen 7 平台布局铺设供应链,预…

2026-05-27

TetraMem 22nm SoC MLX200完成验证,以存内计算开拓低功耗低延迟AI新赛道
来源:市场资讯 (来源:IT之家) IT之家 5 月 26 日消息,硅谷 AI 芯片初创企业 TetraMem 当地时间 19 日宣布,其22nm SoC MLX200 在台积电制程上完成芯片验证,评估套件…

2026-05-27

数字技术助力治理升级 厦门翔安智慧城中村项目7月将全面完工
为破解城中村人口密集、设施薄弱、监管难度大、服务覆盖不足等治理难题,近日,厦门市翔安区智慧城中村(三期)项目正加紧推进建设,预计今年7月将全面完工。 据厦门智慧翔安数据有限公司智慧城中村项目负责人介绍,全区1…

2026-05-27

机器人与自动化浪潮下:网络安全成企业稳定运营的关键防线
监控异常流量模式:在OT网络中,异常模式往往格外显眼:控制器突然与陌生地址通信、设备在异常时段频繁交互、与正常运营不符的大规模数据传输、反复出现的登录失败,或突然出现的新型管理工具。 A:远程访问是自动化环…

2026-05-27