高通公司近日正式发布面向数据中心领域的下一代AI推理加速方案,推出基于Qualcomm AI200与AI250芯片的加速卡及机架系统。该系列解决方案依托高通在神经网络处理单元(NPU)领域的技术积累,通过机架级架构设计实现性能与能效的双重突破,为生成式AI在各行业的规模化部署提供关键基础设施支持。
Qualcomm AI200加速卡专为机架级AI推理场景设计,每卡配备768GB LPDDR内存,在提升内存容量的同时降低整体拥有成本。该方案针对大语言模型(LLM)和多模态模型(LMM)推理需求进行优化,通过内存扩展技术实现硬件资源的灵活调配,满足从边缘计算到云端服务的多样化AI工作负载需求。
作为技术升级的核心,Qualcomm AI250首次引入近存计算架构,通过将计算单元与内存单元深度集成,实现超过10倍的有效内存带宽提升。这种创新设计不仅显著降低功耗,还支持解耦式AI推理模式,使硬件资源可根据任务需求动态分配,在保证性能的同时优化客户成本结构。实验数据显示,该架构可使特定AI推理任务的能效比提升达40%。
在系统设计层面,两款机架解决方案均采用直接液冷散热技术,配合PCIe纵向扩展与以太网横向扩展能力,构建起高密度计算集群。安全防护方面,机架系统集成机密计算模块,通过硬件级安全加密确保AI模型和数据在推理过程中的全流程保护。整机架设计功耗控制在160千瓦,兼顾高性能与能源效率。
高通技术规划与数据中心业务负责人马德嘉强调,新方案通过软件栈与开放生态的协同创新,重新定义了机架级AI推理的标准。开发者可借助高通Efficient Transformers库和AI Inference Suite工具链,实现与主流AI框架的无缝对接,并支持Hugging Face模型库的一键部署。这种全链路优化覆盖从模型训练到推理服务的完整生命周期,显著降低AI应用落地门槛。
配套发布的超大规模级AI软件栈提供从应用层到系统层的全栈支持,兼容TensorFlow、PyTorch等主流机器学习框架,并集成生成式AI框架优化模块。开发者通过标准化API接口和自动化工具链,可快速完成模型适配与性能调优。该软件栈还提供预训练模型库、开发工具包及AI运营服务,形成完整的端到端解决方案。
根据规划,Qualcomm AI200将于2026年率先投入商用,AI250则计划在2027年实现规模部署。高通承诺将保持年度技术迭代节奏,持续优化AI推理性能、能效比及总体拥有成本三大核心指标,通过芯片架构创新与软件生态建设巩固其在数据中心市场的竞争优势。