在人工智能(AI)时代的大潮中,数据密集型工作负载的需求急剧上升,给现代服务器带来了前所未有的挑战。其中,如何确保计算能力与内存带宽的同步增长,成为了亟待解决的核心难题。AI、高性能计算(HPC)及实时分析等前沿领域,对内存子系统的数据传输速度提出了极为严苛的要求,任何微小的延迟都可能成为性能提升的瓶颈。
在此背景下,一种新型内存技术——MRDIMM(多路复用寄存双列直插内存模块)应运而生,迅速吸引了业界的广泛关注。MRDIMM能否成为AI存储领域的明日之星?它将对内存市场带来怎样的深远影响?这一切,都值得我们深入探讨。
MRDIMM的诞生并非偶然,其根源可追溯到DDR4时代的LRDIMM(减载双列直插内存模块)。LRDIMM的设计初衷在于减轻服务器内存总线的负载,同时提升内存的工作频率与容量。与传统的RDIMM(寄存双列直插内存模块)相比,LRDIMM创新性地引入了数据缓冲器(DB)功能,这一设计不仅降低了主板上的信号负载,还为更大容量的内存颗粒创造了条件,从而显著提升了系统内存容量。
在DDR4时代,经过多轮讨论,由中国澜起科技公司提出的“1+9”方案(1颗RCD+9颗DB)最终成为DDR4 LRDIMM的国际标准。这一成就彰显了澜起科技在内存技术领域的强大研发实力。进入DDR5时代,LRDIMM架构演变为“1+10”,但随着DDR5内存模组容量的大幅增加,其性价比优势逐渐减弱。此时,MRDIMM应运而生,它沿用了与LRDIMM类似的“1+10”技术架构,即搭配1颗多路复用寄存时钟驱动器(MRCD)芯片和10颗多路复用数据缓冲器(MDB)芯片,实现了更高的内存带宽,满足了现代服务器对内存带宽的迫切需求。
随着CPU核心数量和速度的不断提升,内存必须以更快的速度提供数据。MRDIMM通过同时操作两个内存通道,实现了比标准DDR5 DIMM更高的数据吞吐量。简而言之,它将两个DDR5 DIMM相结合,向主机提供两倍的数据速率。目前,第一代MRDIMM的速度已达8800MT/s,第二代更是达到了12800MT/s,未来几代产品的速度预计还将大幅提升。
近年来,服务器CPU技术的发展趋势明显:CPU厂商不断增加内核数量,核心数呈指数级增长。与此同时,数据中心服务器内存对速度和容量的需求也以惊人的速度攀升。然而,“内存墙”问题日益凸显,成为制约系统性能提升的关键因素。传统内存RDIMM的传输带宽增长缓慢,远远跟不上CPU核心数量的增长速度。这也是AMD和英特尔转向DDR5内存的重要原因之一。
在美光和英特尔的联合测试中,MRDIMM展现出了卓越的性能。在内存容量相同的情况下,MRDIMM的运算效率相比RDIMM提高了1.2倍;使用容量翻倍的高尺寸(TFF)MRDIMM时,运算效率更是提高了1.7倍,内存与存储之间的数据迁移减少了10倍。在AI推理方面,MRDIMM同样表现出色,以运行meta Llama 3 8B大模型为例,使用MRDIMM后,词元的吞吐量显著提升,延迟大幅降低,CPU利用效率和末级缓存(LLC)延迟也得到了显著改善。
面对这一技术革新,处理器和存储设备巨头纷纷布局相关产品。英特尔推出了专为高性能计算和AI等计算密集型工作负载设计的至强6性能核处理器,最高配备128个性能核,并支持新型内存技术MRDIMM。AMD也不甘落后,其下一代“Zen 6”架构的EPYC霄龙系列服务器处理器将首次支持MRDIMM内存条。存储方面,美光、Rambus、瑞萨电子等企业也相继推出了MRDIMM相关产品或解决方案。
在国内,澜起科技等企业也开始积极布局MRDIMM技术。经过前期的战略布局和持续的研发投入,澜起科技已完成时钟发生器芯片量产版本研发,并成为全球两家可提供第一子代MRCD/MDB芯片的供应商之一。其他国内企业虽然暂时进度较慢,但也开始保持对新技术、新产品形态的关注与探索。
展望未来,第二子代MRDIMM的数据传输速率将达到12800MT/s,相比第一子代有了显著提升。在高性能计算、人工智能等对内存带宽需求较大的工作负载场景下,MRDIMM有望成为应用系统主内存的优选方案。同时,随着更多服务器CPU平台支持MRDIMM,包括一些ARM架构的CPU平台,MRDIMM的生态将进一步完善,推动其行业渗透率的提升以及MRCD/MDB芯片需求的增长。
值得注意的是,虽然MRDIMM与HBM(高带宽内存)在技术上有所不同,但两者在未来都有可能成为AI和高性能计算的主流内存解决方案。它们各有优势,分别适用于不同的应用场景,共同推动内存市场的革新与发展。