面壁智能携手清华开源1.58-bit大模型BitCPM-CANN 推动AI技术新突破-人工智能-ITBear科技资讯

面壁智能携手清华大学及OpenBMB开源社区，共同推出并开源了一款具有里程碑意义的三值（1.58-bit）大模型——BitCPM-CANN。这款模型依托华为昇腾平台完成训练，标志着中国在人工智能大模型训练领域实现了技术跃迁，为低比特计算范式提供了全新解决方案。

作为国内首个全链路原生开发的低比特大模型，BitCPM-CANN构建了从量化算子到训练算法的完整技术体系。该模型提供0.5B、1B、3B和8B四种参数规模版本，经与全精度模型MiniCPM4的对比测试显示，其推理阶段显存占用降低约83%，使8B参数模型可在主流旗舰手机上流畅运行。这一突破将显著降低端侧AI部署门槛，为移动设备智能化升级提供关键技术支撑。

技术实现层面，研发团队基于MindSpeed与Megatron-LM框架打造了低比特训练基础设施，集成环境适配、32K长序列处理、并行计算策略等核心模块。该平台已形成标准化工程体系，可支持所有面向昇腾架构的低比特训练任务，使开发者无需重复构建底层架构，技术迭代效率提升40%以上。

为促进技术生态发展，项目组已将全部模型权重通过HuggingFace和ModelScope平台开源。开发者可基于这些资源开发智能助手、实时翻译、图像生成等多样化应用，推动AI技术在更多场景的落地转化。此举预计将加速低比特大模型在工业界的普及，形成技术创新的良性循环。

该成果的发布不仅验证了国产算力平台的成熟度，更展示了中国科研团队在AI基础技术领域的创新能力。通过硬件-算法-工具链的协同优化，项目团队成功突破了低比特训练的精度损失难题，为全球AI社区贡献了具有自主知识产权的技术方案。