在大模型推理领域,竞争的核心要素正经历深刻转变。过去,算力是衡量推理能力的关键指标,但如今显存管理已成为制约推理效率的新瓶颈。当预填充(Prefill)与解码(Decode)两个关键环节被部署在同一计算实例时,硬件资源冲突问题日益凸显:Prefill阶段产生的计算峰值会占用大量算力资源,而Decode阶段对KVCache的频繁访问则导致带宽紧张,最终造成首token生成延迟居高不下、token间处理时延波动剧烈。随着多轮对话场景中KVCache规模持续膨胀,长上下文处理需求不断突破极限,以及智能体(Agent)交互需要跨会话共享缓存数据,显存压力呈现出指数级增长态势。这种技术困境催生了预填充与解码分离(PD分离)架构的行业共识,该架构通过将两个核心环节部署在不同计算实例,实现计算资源与显存资源的独立优化和弹性扩展。
PD分离架构的落地面临关键技术挑战:如何实现预填充实例生成的KVCache向解码实例的高效传输。若数据传输速度不足,分离架构带来的性能提升将被网络延迟抵消。生产环境更要求KVCache具备跨实例共享、动态池化管理和分层存储能力,而非简单的数据迁移。针对这些技术难题,由科研机构与企业联合开发的Mooncake开源项目应运而生。作为专为PD分离场景设计的KV缓存连接器,Mooncake已被vLLM、SGLang等主流推理框架集成,在智能体交互等复杂场景中实现了数倍的吞吐量提升。阿里云、英伟达等科技企业正基于该架构构建工业级解决方案。
在硬件适配层面,曦望科技成为首批深度支持Mooncake架构的国产GPU厂商。其解决方案覆盖了KVCache传输与管理的全链路:从支持GPUDirect RDMA(GDR)技术的跨节点零拷贝传输,到Mooncake Store分布式缓存池的硬件加速,形成了完整的软硬件协同体系。通过原生GDR支持,曦望GPU允许网卡直接读写显存,消除了传统路径中两次主机内存中转带来的延迟。在节点内部,自研的Sunrise Link片间互联架构通过拓扑感知路由和多端口并行传输技术,确保多卡间数GB级KVCache的聚合传输效率接近硬件物理极限。
KVCache池化技术突破了传统显存管理的局限。在典型生产环境中,数十个推理实例各自维护独立显存空间,导致相同prompt的重复计算和缓存资源浪费。Mooncake Store通过构建统一的缓存池,将分散的显存、主机内存和SSD存储整合为分层缓存体系。这种设计实现了三大核心价值:跨实例缓存复用避免重复计算,动态弹性伸缩应对流量波动,模型升级时保留历史缓存数据。曦望GPU的深度适配使其显存资源能够无缝接入这个统一池化系统,在智能体多轮对话、长上下文处理等高负载场景中,显著提升了单位硬件资源的并发处理能力。
支撑这些技术创新的是曦望GPU的三大硬件优势。其原生支持的GDR技术突破了传统国产GPU的硬件限制,允许网卡通过PCIe P2P DMA直接访问显存,这是PD分离架构产生实际效益的基础。自研的Sunrise Link片间互联架构配合专用软件栈,构建了从显存注册到跨卡传输的完整节点内解决方案,使多卡间的KVCache流转带宽接近理论极限。在软件生态层面,曦望通过深度改造运行时兼容层、内存管理器和并发调度机制,确保Mooncake等开源框架能够在自研硬件上稳定运行,这种全栈适配能力体现了芯片厂商对软件生态的掌控深度。
当前,PD分离架构已成为工业推理系统的标准配置,Mooncake项目正在确立该领域的技术规范。曦望科技通过硬件层面的深度创新,验证了国产GPU不仅能在传统推理场景中运行,更能支撑分离式推理、KVCache池化等下一代技术架构。这种技术突破标志着国产算力开始参与定义推理系统的未来发展方向,为构建不依赖单一厂商的开放型大模型算力底座提供了关键技术支撑。随着预填充与解码解耦成为行业趋势,曦望与Mooncake的合作模式为国产硬件突破技术封锁提供了可复制的实践路径。





