近日,AI领域传来了一项新的技术突破,DeepSeek团队发布了其最新的研究成果——DeepSeek-V3。这篇论文不仅深入探讨了DeepSeek在硬件架构和模型设计方面的创新,还为实现高效益的大规模训练和推理提供了宝贵的思路。
据悉,DeepSeek的创始人兼CEO梁文锋也参与了此次论文的撰写,并在作者名单中占据了重要位置。论文的通讯地址显示为中国北京,这暗示着此次研究很可能由DeepSeek的北京团队主导。
随着大语言模型的快速发展,硬件架构的瓶颈逐渐显现,包括内存容量不足、计算效率低下以及互连带宽受限等问题。然而,DeepSeek-V3却成功地在这些方面取得了显著的突破。
据透露,DeepSeek-V3仅在2048块H800 GPU上进行训练,就实现了FP8训练准确率损失小于0.25%的惊人表现,每token的训练成本仅为250 GFLOPS。相比之下,405B密集模型的训练成本高达2.45 TFLOPS,而KV缓存更是低至每个token 70 KB,仅为Llama-3.1缓存的1/7。
那么,这些令人瞩目的数据背后,到底隐藏着怎样的技术革新呢?DeepSeek在论文中详细阐述了其模型架构和AI基础设施的关键创新。其中,包括用于提高内存效率的多头潜在注意力(MLA)、用于优化计算-通信权衡的混合专家(MoE)架构、用于释放硬件全部潜力的FP8混合精度训练,以及用于减少集群级网络开销的多平面网络拓扑。
DeepSeek-V3的基本架构图展示了这些创新如何协同工作,以实现高效的大规模训练和推理。论文指出,有效的软硬件协同设计可以为较小的团队提供与大团队竞争的公平环境,这也在一定程度上解释了DeepSeek-V3为何能够取得如此显著的突破。
在论文中,DeepSeek详细探讨了硬件驱动的模型设计、硬件和模型之间的相互依赖关系以及硬件开发的未来方向。其中,从源头优化内存效率是DeepSeek-V3解决扩展挑战的关键之一。通过使用MLA减少KV缓存,DeepSeek成功降低了内存消耗,从而有效缓解了AI内存墙的挑战。
DeepSeek还开发了DeepSeekMoE,利用MoE模型的优势降低训练成本和便于本地部署。MoE模型允许参数总数急剧增加,同时保持计算要求适中,这为个人使用和本地部署提供了独特的优势。
在推理速度方面,DeepSeek通过重叠计算和通信、引入高带宽纵向扩展网络以及多token预测框架等技术,成功提高了模型的推理速度。这些创新不仅实现了全对全通信与正在进行的计算的无缝重叠,还充分利用了GPU资源,从而显著提高了吞吐量。
在具体技术实现方面,DeepSeek采用了FP8混合精度训练,将模型内存占用直接减少了50%。同时,团队还提出了LogFMT对数空间量化方案,在相同比特下实现了更高精度。在互连优化方面,DeepSeek摒弃了传统张量并行(TP),转而采用流水线并行(PP)和专家并行(EP),配合自主研发的DeepEP库,实现了通信效率的飞跃。
DeepSeek还推出了两层多层胖树(MPFT)网络拓扑,通过8个独立平面实现故障隔离与负载均衡。这一创新不仅降低了成本40%以上,还在全到全通信性能上与单层多轨网络相当,为集群扩展提供了坚实保障。
在论文的结尾部分,DeepSeek从硬件架构演进的角度提出了六大未来挑战与解决方案,涵盖了内存、互连、网络、计算等核心领域。这些建议不仅为下一代AI基础设施的升级提供了方向,也为整个AI产业的发展提供了重要参考。