华为SINQ量化技术发布：大语言模型显存需求直降60%至70%-人工智能-ITBear科技资讯

华为苏黎世计算系统实验室近日宣布推出一项革命性的开源量化技术——SINQ（Sinkhorn归一化量化），该技术专为优化大语言模型（LLM）的硬件资源利用而设计。通过创新性的压缩算法，SINQ显著降低了模型运行所需的显存空间和计算成本，为人工智能领域的高效部署提供了新方案。

实验室测试数据显示，SINQ技术对不同规模的大语言模型均展现出强大的压缩能力。在保持模型性能的前提下，显存占用可减少60%至70%。例如，原本需要超过60GB显存才能运行的复杂模型，经SINQ优化后仅需约20GB显存即可部署，大幅降低了硬件门槛。

这项技术的突破性在于其归一化量化机制，通过Sinkhorn算法对模型权重进行高效重构，在压缩过程中最大程度保留了原始模型的信息密度。与传统的量化方法相比，SINQ不仅减少了资源消耗，还维持了模型的推理精度，为大规模语言模型的商业化应用开辟了新路径。

目前，SINQ已作为开源项目对外发布，研究人员和开发者可自由获取相关代码并应用于实际场景。随着人工智能模型规模持续扩大，这项技术有望缓解高算力需求带来的硬件压力，推动更高效的AI系统落地。

2025-10-06

2025-10-06

本文将基于阿里云智能蒋林泉老师在AICon大会的演讲内容，深入探讨企业级大模型应用的实战经验，分享从技术落地到业务提效的全过程方法论。但我认为更重要的是那些核心的应用场景还没完全落地，比如AI与医疗、自动驾…

2025-10-06

阿里云基于Apache RocketMQ与AI技术深度融合，推出AI Agent事件驱动架构解决方案，从通信模型、资源调度、应用落地等多维度突破瓶颈，同时依托Serverless应用引擎（SAE）构建全托管生…

2025-10-06

快科技10月5日消息，据报道，亚马逊创始人杰夫·贝索斯预测，未来10到20年内，人类将在太空中建造大规模数据中心。这些数据中心将利用太空中的太阳能和相对简单的冷却条件，超越地球上的数据中心在效率和成本方面的…

2025-10-06

近日，英伟达与日本电信及计算机制造商富士通达成协议，将共同构建集成AI智能体的全栈AI基础设施，并计划于2030年在日本建成这一数字基础设施。花旗在最新发布的报告中指出，短短五年内，AI相关销售额已从零增长…

2025-10-06

2025-10-06

2025-10-05

2025-10-05

2025-10-05