华为苏黎世计算系统实验室近日宣布推出一项革命性的开源量化技术——SINQ(Sinkhorn归一化量化),该技术专为优化大语言模型(LLM)的硬件资源利用而设计。通过创新性的压缩算法,SINQ显著降低了模型运行所需的显存空间和计算成本,为人工智能领域的高效部署提供了新方案。
实验室测试数据显示,SINQ技术对不同规模的大语言模型均展现出强大的压缩能力。在保持模型性能的前提下,显存占用可减少60%至70%。例如,原本需要超过60GB显存才能运行的复杂模型,经SINQ优化后仅需约20GB显存即可部署,大幅降低了硬件门槛。
这项技术的突破性在于其归一化量化机制,通过Sinkhorn算法对模型权重进行高效重构,在压缩过程中最大程度保留了原始模型的信息密度。与传统的量化方法相比,SINQ不仅减少了资源消耗,还维持了模型的推理精度,为大规模语言模型的商业化应用开辟了新路径。
目前,SINQ已作为开源项目对外发布,研究人员和开发者可自由获取相关代码并应用于实际场景。随着人工智能模型规模持续扩大,这项技术有望缓解高算力需求带来的硬件压力,推动更高效的AI系统落地。