ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

美团INT8量化技术:老型号GPU也能满血运行DeepSeek R1

时间:2025-03-07 19:25:45来源:ITBEAR编辑:快讯团队

近期,美团技术团队传来新进展,他们成功对DeepSeek R1模型实施了INT8精度量化处理,此举意味着该模型将不再受限于特定型号的GPU,能够在更多设备上实现高效部署。

自DeepSeek R1发布以来,众多企业和个人用户纷纷尝试部署其满血版本。然而,该模型原生版本的权重格式为FP8,这一格式对GPU芯片类型有着严格要求,仅支持英伟达的新型GPU,如Ada和Hopper架构芯片,而像A100这样的老型号GPU则无法直接部署。

面对这一挑战,用户曾尝试将FP8权重反量化为BF16权重,以便在A100等GPU上进行推理。然而,这种方法不仅将显存需求提升了一倍,还导致了推理吞吐量的下降。这显然不是最优解。

为了打破这一僵局,美团搜索和推荐平台部技术团队决定对DeepSeek R1模型进行INT8精度量化尝试。经过努力,他们惊喜地发现,量化后的模型在精度上几乎没有损失。这一发现为DeepSeek R1的广泛应用打开了新的大门。

通过INT8量化,DeepSeek R1模型成功解锁了芯片限制,现在可以在A100等其他型号的GPU上部署。与BF16格式相比,INT8量化后的模型在推理吞吐量上实现了50%的提升,进一步降低了推理成本。这对于那些希望在不同硬件环境中部署DeepSeek R1的用户来说,无疑是一个重大利好。

美团技术团队已经将量化代码开源到了LLM推理框架SGLang上,供行业内外人士参考和使用。同时,量化后的DeepSeek R1模型也已经在Hugging Face社区发布,用户可以直接下载和使用。这一举措无疑将促进DeepSeek R1模型的广泛应用和进一步发展。

对于对DeepSeek R1模型量化过程感兴趣的用户,可以查阅美团官方发布的技术报告,以获取更详细的信息和了解背后的技术原理。

更多热门内容
不止于科技:三星Galaxy Z系列贴心服务给予用户安心承诺
三星Galaxy Z系列折叠屏手机的推出,标志着折叠屏手机从“可用”迈向“好用”的跨越式迭代。其中,三星Galaxy Z Fold6延续了横向折叠形态,采用直边设计语言与对称式外观,外屏比例更接近传统直板手机,展开后7.6英寸内屏近乎无折痕,配合2600尼特峰值亮度的第二代动态A

2025-03-11

国补焕新:政策红利下,小刀电动车成以旧换新首选品牌
在2024年国家以旧换新政策圆满收官,2025年政策延续深化的背景下,小刀电动车积极响应国家号召,通过覆盖全国的规模化行动、政企协同的补贴升级及全链路服务创新,全面承接政策红利,加速淘汰非标电动车,推动绿色出行普及。政策东风助力,以旧换新激发市场活力2024年,

2025-03-11