近期,华为在金融AI推理应用领域即将迎来重大技术发布。据《科创板日报》的消息,华为计划在8月12日举办的2025金融AI推理应用落地与发展论坛上,公布一项AI推理领域的创新技术。这项技术的问世,有望减少对HBM(高带宽内存)技术的依赖,提升国内AI大模型的推理性能,进一步推动中国AI推理生态的成熟。
事实上,华为在AI推理技术上的探索早已有之。今年3月,北京大学携手华为推出了DeepSeek全栈开源推理方案。该方案融合了北京大学自研的SCOW算力平台系统与鹤思调度系统,并整合了DeepSeek、openEuler、MindSpore及vLLM/RAY等开源组件,实现了在华为昇腾平台上的高效推理。这一合作成果不仅展示了华为在AI推理领域的深厚积累,也标志着国产算力在AI应用上的重要突破。
在性能表现方面,华为昇腾系列亦取得了显著进展。以CloudMatrix 384超节点为例,在部署DeepSeek V3/R1时,其单卡在50毫秒时延约束下的Decode吞吐能力突破了1920 Tokens/秒。而Atlas 800I A2推理服务器在100毫秒时延约束下,单卡的吞吐更是达到了808 Tokens/秒。这些数据的背后,是华为在AI推理性能优化上的不懈努力。
华为与科大讯飞的合作也结出了硕果。双方共同实现了在国产算力平台上MoE模型的大规模跨节点专家并行集群推理,这一突破使得推理吞吐提升了3.2倍,端到端时延降低了50%。这一合作不仅提升了AI推理的效率,更为国产AI技术的实际应用开辟了新路径。