华为8月12日将发布AI推理新技术，有望减少对HBM依赖，强化国内AI生态-信息流-ITBear科技资讯

近期，华为在金融AI推理应用领域即将迎来重大技术发布。据《科创板日报》的消息，华为计划在8月12日举办的2025金融AI推理应用落地与发展论坛上，公布一项AI推理领域的创新技术。这项技术的问世，有望减少对HBM（高带宽内存）技术的依赖，提升国内AI大模型的推理性能，进一步推动中国AI推理生态的成熟。

事实上，华为在AI推理技术上的探索早已有之。今年3月，北京大学携手华为推出了DeepSeek全栈开源推理方案。该方案融合了北京大学自研的SCOW算力平台系统与鹤思调度系统，并整合了DeepSeek、openEuler、MindSpore及vLLM/RAY等开源组件，实现了在华为昇腾平台上的高效推理。这一合作成果不仅展示了华为在AI推理领域的深厚积累，也标志着国产算力在AI应用上的重要突破。

在性能表现方面，华为昇腾系列亦取得了显著进展。以CloudMatrix 384超节点为例，在部署DeepSeek V3/R1时，其单卡在50毫秒时延约束下的Decode吞吐能力突破了1920 Tokens/秒。而Atlas 800I A2推理服务器在100毫秒时延约束下，单卡的吞吐更是达到了808 Tokens/秒。这些数据的背后，是华为在AI推理性能优化上的不懈努力。

华为与科大讯飞的合作也结出了硕果。双方共同实现了在国产算力平台上MoE模型的大规模跨节点专家并行集群推理，这一突破使得推理吞吐提升了3.2倍，端到端时延降低了50%。这一合作不仅提升了AI推理的效率，更为国产AI技术的实际应用开辟了新路径。