华为近期对其提出的韬定律相关论文进行了重要更新,在原有理论框架基础上,融入了大量工程细节、实测数据以及产品规划内容,为这一理论提供了更具说服力的支撑。
韬定律被视为摩尔定律的“时间版”。摩尔定律强调晶体管尺寸不断缩小,密度约每两年翻一倍。然而,随着制程持续升级,单纯依靠缩小尺寸提升性能的路径已逐渐走到尽头。韬定律则另辟蹊径,以时间常数τ作为新的衡量标准。时间常数作为工程概念,指的是系统对输入变化做出响应并达到稳定状态所需的特征时间,在电路中通常指电压或电流从触发到基本稳定所用的时长。该论文明确指出,τ由晶体管层、电路层、芯片层、系统层四个部分叠加构成,跨度约十二个数量级,从皮秒级延伸至秒级。晶体管开关速度加快、电路信号传输路径缩短、芯片响应请求速度提升,本质上都是τ在变短,谁能将τ压缩得更短,谁就能在竞争中占据优势。
此次更新的论文给出了两个已量产验证的案例。在手机芯片领域,由于手机性能高度依赖单颗SoC芯片,没有多机并行分担压力,华为提出了LogicFolding方法。其官方定义为将数字、模拟、存储电路划分到垂直堆叠的有源层上,并通过超精细键合连接。在工程实践中,原本平铺在一层的电路实现了立体堆叠,走线长度大幅缩短,寄生电阻电容随之降低,使得芯片在相同制程节点下能够运行得更快且更省电。华为将新一代手机芯片与上一代同工艺芯片进行对比,发现晶体管密度从每平方毫米155百万颗提升至238百万颗,这一提升幅度以往需要三年制程迭代才能实现。
在AI数据中心领域,情况与手机芯片截然不同。AI系统由成百上千颗芯片协同工作,此时制约性能的不再是单芯片算力,而是数据在芯片之间、机柜之间传输所耗费的时间。论文测算显示,大型AI集群超过八成的能耗用于数据搬运,超过七成的成本用于数据存储。为解决这一问题,华为在论文中提出三件套方案。第一件是Unified Bus,定位为内存语义、点对点、硬件管理一致性的统一互联协议。通过简化通信栈为一条直连高速通道,将跨节点访问延迟从几十微秒压缩至约100纳秒。第二件是Hi-ONE,即高密度光互联节点引擎,每个模块带宽达8Tb/s。传统电互联在多Tb/s级别时,电信号传输距离骤减,配套线缆粗大,散热和供电余量被占满。Hi-ONE将电信号转换为光信号,使所需传输距离从约100厘米压缩至5厘米,连接距离从不到一米延长至100米。在设计思路上,Hi-ONE未采用高精度但耗电的DSP方案,而是选用更轻的模拟均衡驱动和跨阻放大器,虽需容忍更松的误码率,但综合评估下来,节省的功耗和成本远超误码率带来的损失。第三件是3D Folding,旨在解决N平方对N困境。将芯片边长记为N,算力与芯片面积成正比,呈平方增长;而内存带宽、互联和供电等信号需从芯片边缘进出,边缘周长仅与N成正比,呈线性增长。随着芯片尺寸增大,算力增长速度远超边缘带宽和供电承载能力,两条曲线差距逐渐拉大。3D Folding的解决方案是将原本只能布置在芯片边缘的存储、供电、光模块移至芯片表面,通过拓展表面空间解决边缘带宽不足的问题。
新发布的第二版论文在内容上进行了多处实质性修改。摘要中原本笼统的“性能提升41%”表述被细化,明确指出功耗效率提升41%、最大频率提升近13%,并分别阐述了各自的测试条件。频率提升13%是在电压固定不变的情况下测得,体现了实打实的性能进步;功耗降低41%则采用同等性能对比法,将新一代芯片电压下调至与上一代芯片性能持平的点,此时功耗降至老芯片的0.59倍,芯片面积降至0.625倍。通过分开阐述实验条件,读者能够更清晰地理解这些数据的实际意义。
在技术选型方面,新版论文也提供了更详细的解释。LogicFolding能否发挥作用,关键在于齿比参数,即键合层间距与顶层金属布线间距的比值,单位为微米,比值越低越好。键合层间距指连接两片硅片的连接点之间的距离,顶层金属布线间距指芯片最上层走线之间的距离。若键合间距比顶层金属稀疏,设计空间只能进行离散优化,芯片需按功能模块整块分配,工程师手动划分边界;当键合间距足够密集时,设计空间可实现连续优化,能够按逻辑单元等更细粒度重新分配电路,理论上可达到全局最优。在电路立体堆叠的实现路径上,业内常见顺序式3D集成和晶圆到晶圆混合键合两种方法。顺序式3D集成是在同一片晶圆上逐层生长晶体管,理论上精度最高,但华为最终放弃该方法,原因是每多生长一层,底层晶体管需经历一轮高温工艺,导致掺杂分布偏移、载流子迁移率下降,性能受损。华为选择的是晶圆到晶圆混合键合方法,将两片已单独制造好晶体管的晶圆对准后直接粘合,键合面同时实现金属焊盘对金属焊盘、介质对介质的键合,再通过硅通孔连接上下两层电路。该方法使两片晶圆各自独立完成制造,无需互相迁就高温工序,良率得以保障,但也带来了散热问题。由于走线缩短使热量集中,中间层散热路径变长,新版论文首次正面提及这一问题,并提出热感知分区和布局的应对方法,即在划分电路布局前,先计算每个模块的功耗热图,避免高功耗模块集中堆叠,在垂直方向上也避免高功耗子系统相邻布置,主动将热源在三维空间错开,不过该方法目前仅能缓解散热问题,尚未彻底解决。