摩尔线程在北京举办的首届MUSA开发者大会上,正式发布新一代全功能GPU架构“花港”,同步展示万卡级AI训练集群及多项技术突破。此次技术升级覆盖芯片架构、集群算力、软件生态及图形渲染等多个维度,标志着国内GPU厂商在AI计算领域的技术布局进入新阶段。
新架构“花港”实现全精度计算覆盖,支持从FP4到FP64的完整精度范围,算力密度较前代提升50%,能效比达到10倍优化。基于该架构,摩尔线程规划推出两款专用芯片:面向AI训练与推理的“华山”系列,以及专注图形渲染的“庐山”系列。其中,“华山”芯片将重点优化大模型训练效率,而“庐山”芯片则集成硬件光线追踪加速引擎,支持自研的AI生成式渲染技术。
在集群计算领域,摩尔线程推出“夸娥”万卡智算集群,宣称具备全精度通用计算能力。实测数据显示,该集群在稠密模型训练中算力利用率达60%,混合专家模型训练利用率达40%,线性扩展效率保持在95%以上。推理性能方面,与硅基流动合作完成的DeepSeek R1 671B模型测试显示,单卡Prefill吞吐量突破4000 tokens/s,Decode吞吐量超过1000 tokens/s,刷新国内同类产品纪录。
软件生态建设取得实质性进展。MUSA 5.0版本对编程模型、计算库及编译器进行深度优化,核心计算库muDNN的GEMM运算与FlashAttention效率均突破98%,集群通信效率达97%。公司宣布将逐步开源计算加速库与系统管理框架等核心组件,目前已有部分工具链开放下载。此举被视为构建国产GPU软件生态的关键步骤。
图形技术领域实现多项突破。新架构集成第二代硬件光线追踪加速单元,支持实时光线追踪与路径追踪混合渲染。自研的AI生成式渲染技术可实时将低分辨率内容升级为8K画质,在具身智能仿真训练中实现物理世界与数字世界的精准映射。大会现场演示的MTLambda仿真平台,已支持机器人训练的物理引擎与AI算法深度耦合。
端侧设备布局同步推进。基于“长江”SoC的AI算力本MTT AIBOOK亮相大会,这款便携设备集成NPU加速单元,可本地运行70亿参数大模型。面向超大规模智算中心,摩尔线程提出MTTC256超节点架构设计,通过高密度硬件集成与动态能效调节技术,单节点可支持256颗GPU互联,功耗比优化达30%。
行业观察人士指出,摩尔线程此次技术发布呈现三大特征:架构设计提前量增大,软件生态开放程度提升,应用场景覆盖度扩展。从芯片架构到集群方案再到端侧设备的技术闭环,显示出其构建全栈AI计算平台的战略意图。特别是在训练集群效率与推理性能等关键指标上,已形成对国际主流产品的差异化竞争态势。
