ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

华瑞指数云WADP登顶MLPerf,单节点支持超700块GPU训练展实力

时间:2025-08-08 00:48:48来源:ITBEAR编辑:快讯团队

在AI性能基准评测领域,MLCommons®近期揭晓了MLPerf™Storage v2.0的最新测试结果,为全球AI存储技术树立了新的标杆。华瑞指数云ExponTech,作为AI原生企业级全场景数据基础设施的领航者,在此次评测中大放异彩,与DDN、IBM、HPE、华为及Hammerspace等国际国内巨头同台竞技,凭借卓越的创新技术和产品方案,斩获了多项世界领先的成绩。

此次测试中,ExponTech携手英伟达、Scaleflux及AIC,共同打造了一套软硬件均具创新性的解决方案。该方案旨在验证在AI应用场景下,通过新一代分布式存储软件栈,驱动更为精简高效的硬件架构,实现性能密度、容量密度的双重提升,同时降低成本。网络层面,采用RoCE网络,充分展示了大规模组网能力、扩展性及并行访问能力。

硬件配置上,ExponTech的方案独树一帜。不同于其他参与者采用的多台高配置存储服务器搭配IB网络的方案,ExponTech仅使用了一台2U的AIC盘框(JBOF F2026)。该盘框无CPU和内存配置,专注于提供高容量密度和硬件可靠性,2U空间内可配置多达26块SSD盘,本次测试采用了24块Scaleflux CSD 5000带压缩功能的SSD盘。盘框内嵌入了4张英伟达Bluefield-3 DPU卡,每张DPU提供400Gbps的RoCE网络带宽,ExponTech自主研发的WADP分布式存储软件完全运行于DPU内。

网络方面,4台英伟达Spectrum-X交换机构建起两层RoCE网络,验证了大规模组网时的拥塞控制能力。基于这一网络和WADP软件,系统可扩展至连接1024台盘框,形成EB级容量、上百TB级存储带宽的超大规模高性能存储池。

软件层面,ExponTech的WADP(WiDE AI Data Platform)分布式存储软件,基于自主研发的下一代分布式存储引擎WiDE和元数据引擎天枢构建。在同一存储池空间内,提供包括块存储、文件存储、对象存储及KV接口在内的丰富协议接口。本次测试的WADP软件,完全运行于4张Bluefield-3 DPU内,每张DPU仅配备了一块16核CPU及48GB内存,展现了WADP软件栈的高效硬件利用效率和IO处理能力。

测试结果方面,基于单个2U存储节点及1至2个客户端的测试显示,该方案轻松满足ResNet-50模型训练需求,单客户端最高支持240块GPU卡,带宽达到23.6GiB/s。在硬件采用DPU+JBOF,CPU和内存配置相对较弱的情况下,仍领先所有参与测试的厂商方案,位居榜首。在MLPerf™ Storage v2.0新推出的针对大型语言模型(LLM)训练场景的检查点(Checkpoint)工作负载测试中,ExponTech WADP方案在Llama3-8B模型的实测写带宽为16.9GiB/s,虽位居第三,但使用的物理盘容量仅为前两名的五分之一,展现了极高的存储软件栈效率。

ExponTech WADP方案的亮点包括超高密度与能效、超高性能表现、极致I/O效率、弹性扩展能力、可扩展网络验证及存储效率倍增。此次在MLPerf™ Storage v2.0 AI Storage基准测试中取得的优异成绩,不仅彰显了ExponTech在存储技术方面的强劲实力,也标志着其在业界的重要突破。继2023年在SPC-1基准测试中创下世界纪录后,ExponTech再次证明了其在企业关键业务与AI工作负载领域的双重竞争力,成为全球唯一能在SPC-1和MLPerf Storage上均取得顶级成绩的分布式存储软件,为企业级AI统一平台的全场景覆盖提供了坚实基础。

更多热门内容