近日,一场聚焦国产GPU与开源生态协同发展的技术盛会在北京拉开帷幕。由摩尔线程与SGLang社区联合主办的“MUSA开源技术沙龙|SGLang × MUSA Meetup”吸引了近百位前沿开发者到场,TileLang、Triton、Mooncake等开源社区的顶尖技术专家齐聚一堂,围绕大模型推理引擎、算子编译、工程优化等核心议题展开深度交流。
作为MUSA后端正式融入SGLang主线后的首次线下技术活动,此次盛会成为国产GPU深度参与全球主流开源框架生态共建的重要里程碑。开发者在运行大语言模型及多模态推理任务时,可直接调用摩尔线程全功能GPU,无需依赖第三方适配层,标志着国产算力与国际主流推理框架的协同进入“原生支持”新阶段。
摩尔线程CTO张钰勃在开场致辞中深入阐释了MUSA统一系统架构的设计理念。他强调,公司始终以通用计算为初心,通过高度统一的底层计算平台支撑未来技术演进,同时以全产品线统一的指令集与架构标准,为软件生态的持续沉淀提供保障。针对开发者关注的生态迁移问题,他表示MUSA在接口设计上充分复用现有GPU编程习惯,力求实现零学习成本融入现有生态,此次获得SGLang官方支持正是开放理念的重要实践。
技术分享环节,五大核心议题贯穿推理框架到算子内核的全链条。SGLang核心开发成员Xiaoyu Zhang(BBuf)详细解析了框架演进路线,包括支撑DeepSeek-V4等模型的分层缓存机制、Zero‑overhead Speculative Decoding技术,以及算子层从sgl‑kernel包向Jit‑kernel体系的迁移。他透露,摩尔线程MUSA已正式纳入SGLang硬件适配核心阵列,双方将深化原生算子支持。
摩尔线程Contributor ROCKSTAR展示了SGLang在MUSA平台上的工程落地实践。通过torchada适配层,开发者现有CUDA代码可无缝运行在摩尔线程GPU上,大幅降低适配成本。MATE算子库提供的高性能Attention与GEMM算子,已对接主流接口,支持DeepSeek、Qwen等主流大模型及视频生成模型实现“开箱即用”。截至活动举办时,摩尔线程已在SGLang主线提交47个PR,其中41个已合入,完成全链路打通。
北京智源人工智能研究院AI编译器研究员肖航聚焦Triton关键算子优化及其在MUSA平台上的适配。他介绍的FlagOS统一开源软件栈已涵盖超497个算子,通过FlagTree编译器与Triton-TLE语言扩展实现跨芯片高性能算子生成。在DeepSeek-V4适配中,专用张量加速引擎与调优方案使TTFT时延降低56.7%,吞吐量提升65.7%,为国产GPU构建起更高效的算力应用生态。
TileLang Maintainer唐正举探讨了TileLang在化解算子硬件依赖与性能调优上的优势。通过显式控制计算与数据搬运基本单元,开发者可用极简代码实现极致性能,例如用约50行代码写出比肩FlashAttention专家库的kernel。DeepSeek-V4已在训练中采用其编写核心kernel,达到硬件峰值性能。TileLang正与MUSA生态深度联调,未来将围绕分布式算子编程等新项目持续发力。
Mooncake Contributor马腾分享了训推一体系统与SGLang的结合实践。其核心传输引擎通过零拷贝RDMA与多协议支持实现高吞吐超低延迟,KV Cache Store统一池化异构存储降低推理成本。在弹性EP架构中,系统支持故障节点动态摘除与Expert映射调整,大幅提升集群容错能力。摩尔线程作为核心Maintainer之一,深度参与多节点通信协议等关键特性共建。
圆桌讨论环节,六位技术专家围绕“生态共建与工程化破局”展开深度对话。针对开源技术创新与国产硬件生态复杂度加剧的挑战,嘉宾们提出多项建议:建立更干净的硬件抽象、坚持接口兼容与底层创新并重、平衡可编程性与极致性能、以Tile抽象连接模型算子硬件、沉淀最佳实践与端到端场景验证。各方一致认为,未来应优先建立统一抽象边界、标准化适配接口与共享基准测试体系,推动国产AI软硬件生态协同突破。
此次技术盛会的成功举办,标志着国产GPU与全球顶级推理框架的协同从“代码共建”迈向“生态共聚”。通过与多个开源社区的紧密协作,摩尔线程不仅推动MUSA平台与主流AI框架深度适配,更以实际行动赋能开发者,持续助力国产算力融入全球开源生态,加速AI应用的创新与落地。
